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Abstract 1 

A linear regression can be modeled by a family of distributions {P^2 : (3 6 JR p *\a 2 G 
for (Xjy) € JR?* 1 x iR, where y = x'P + u. tt independent of a; and distributed 
normal or symmetrically about 0 with variance cr 2 ; 

This thesis deals with the analysis of datasets {x h yd 6 2R P * L x 2R. i. = 1. . . . , n. A 
linear regression distribution P^a is treated as a distribution for one cluster; Le. linear 
regression distributions with different parameters erf), i = 1, . . are: supposed to 
be adequat for different parts of the dataset; Furthermore, there can bg outliers in the 
data for which no such model is appropriate. 

Various models for such data are introduced, especially mixture models of the form 
E^i ftP^.^a; Maximum Lite of the parameters (A, cr?) is discussed; 

New proposal for estimating the number of clusters s are given. 

SufBcient conditions for the idehtifiability of the parameters are derived; Counter- 
examples are given in some situations where the conditions do not hold. 

As a new method. Fixed Point Cluster Analysis (FPC A) is introduced. It enables; 
the analysis of data with unknown number of clusters s and outliers. FPCA bases on 
the identification of outliers and can be generalized to other clustering problems. A 
Fixed Point Cluster (FPG) corresponds to a subset of 2R P+I x 2R and should contain 
points {x\ y) which belong together in some sense. Every FPC corresponds to parameters 
(6, 5 2 ) 6 jKf^ 1 x i72 + which can be interpreted as estimation of the regression parameters 
($, erf). FPG are defined for datasets and distributions. 

Convergence of an algorithm for the computation of FPG for given datasets is proven. 

Distributions of the form {l-€)Pp 0 ^2+eH* are considered: P^g here is interpreted 
as a distribution for a linear regression cluster. H* is a distribution on 2R pH:l x JR, e.g. 
a mixture of other P^*. The existence of FPC is shown under- various assumptions 
on if * and e. The parameters of these FPC lie in a bounded neighborhood of (#o r crg).i 
For homogenous regression clistributions (e = 0) exists one arid only one FPC. It has 
parameters a%). 

In & simulation study FPCA and two Maximum Likelihood procedures are compared. 



l Eine deutsche Zusamraenfassung findet sich auf Seite 179. 
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1 Einfuhrung 
1.1 Das Problem 

Der folgende Datensats findet sich auf Seite 26 von Rousseeuw und Lerdy (1988). Er 
enthalt die von Beigien aus geffihrten internatipnalen Telefongesprache (in 10 Millionen) 
in den Jahren 1950-1973. 



Nr. 


Telefonate (y) 


Jahr (x) 




Nr: 


Telefonate (y) 


Jahr (a;) 


1 


0.44 


50 




13 


1.61 


62 


2 


0.47 


51 




14 


2.12 


63 


3 


0.47 


52 




15; 


11.9 


64 


4: 


0.59 


53 




16 


12.4 


65 


5 


0.66 


54 




17 


14.2 


66 


6 


0.73 


55 




18 


15.9 


67 


7 


0,81 


56 




19 


18.2 


68 


8 


0:88 


57 




20 


2L2 


69 


9 


1.06 


58 




21 


4.3 


70 


10 


1.20 


59 




22 


2.4 


71 


11 


.1.35 


60 




23 


2,7 


72 


12 


1.49 


61 




24 


2.9 


73 





Telefonate; 

• 

« 

10 




1950' 1963 1973 



Abbiidurig; 1: Telefohdatensatz 



In Abbildung 1 fallt spfort, auf, dafl sich die Telefonate in den Jahren von 1964-1970 
grundsatzlich anders verhalten als die Mehrheit der Daten. Der Zusammenhang zwischen 
Jahr und Telefonatezahl sieht fur die Jahre 1950-1962 und 1971-1973 annahernd linear 
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aus. Aut Nachfrage erfuhren Rousseeuw und Leroy, dafi 1964-1969 nicht die Telefonate, 
sondern die Minuten gezahlt wurden, die die Telefonate insgesamt dauerten. 1963 und 
1970 wurden beide Verfahren teilweise angewendet. 

In der rdbusten Statistik wurde dieser Datensatz haufig diskutiert als Beispiel fur 
eine lineare Regression mit mehreren Ausreifiern. Berechnet man den Kleinste-Quadrate- 
Schatzer (KQ)zum Mcdell 

so paBt die resultierende Gerade fastkeinen Punkt gut an (steigende Linie in der Abbil- 
dung 1); 

Bemerkung jLI Gegeben set ein DatmsaiziX y y) t 

M-^u^^y y = (2/ l? ., .,y n )', xt€lR?+\ y { £ IRVt = I,.,.,.n. 
Gimn ^ IE?** definieri durch 

X(^-a;^p) 2 = min. 

pas he0t, ja/fa ^XOC}" 1 exis^ert $kq ;; = (X'X)"" 1 X , y, 7ra o%cn FaK der Regression 
mit Achsmabschnkt 0i iverden die fy :;,== afe Elemente axis JR T interpretiert, 

Wilflif^ Beispiel „Least Median of 

Squares- (siehe Rpusseeuw und Leroy (1988)) j so wird eine Gerade geschatzt, die nur 
<ii^ Mehrh denen die Gesprache gezahlt wurden. Die Daten 

\verdgn alsb yinterteilt iri ,,gute" Daten Md „ Ausrei8er u . Aber was ist mit den Daten von 
i|64^69f Die sind ja nicht falsch, sondern nur andersartig. Besteht bei ihnen vielleicht 
auch ein einfecber iine^er Zusam sind, 1st das vpm dptischen 

Eindruck her nidit kiar. Inhaitlich wird man aumindest einen approximatiy liriearen Zii- 
sammenhang; bei den Gesprachslaagen yermuten, falls Linearitat fur die Anrufsanzahlen 
vorausgesetzt wird. 

Das Thema dieser Arbeit ist die Clusteranalyse yon Daten aus linearen Regression 
nen. Das HeiBt: Es geht darum, Qruppen von Daten zu finden, wobei Daten zusammen 
eine Gruppe bilden sollen, wenn ae durch denselben linearen Zusammenliang zwischea 
der (mSglicherweise mehrdimensionalen) Regressorvariable x und dear (eindimensibnalen) 
abhanjpgen Variablen ^ erzeugt wurden. Zur Modellierung der Daten einer Gruppe soli 
also f-ein ^ldassisciies: Hii4sBbrSs? R^grrasitinsmttdelt ^dditf (2.1) iri ; Absehnitt 2) adaquat sein. 
Zu beachten ist dabei, dafi hier im Unterschied zur hSufigsten Verwendung des Wortes; 
^Cluster" (Klumpen) die Zusammengehorigkeit von Punkten nicht direkt mit ihrerri Ab- 
stand ypneinander zusammenhangt. Das ist in Abbildung 1 zum Beispiel zu sehen, wenn 
man den Punkt fiir 1973 betrachtet, der \yeiter vom 1950er Punkt entfernt ist als von 
sarntlichen „Ausrei6ern". 

Zu diesem Ziel werden zunachst Maximum Likelihood- und andere bekannte Ansatze 
untersucht. Dann fuhre ich im Hauptteil der Arbeit die Fixpunktclusteranalyse ein, die: 
speziell zur Clusteranalyse bei Clustern unterschiedlicher Art und Prasenz von Ausrei- 
fiern dienen soil. 
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1.2 Modelle fur die Glusteranalyse (Teil I) 

Der ubliche stochastische Zugang 211 einem Clusterahalyse-Problem ist die Formulieruilg 
eines raoglichst einfachen Clustermodelles 2 . Innerhalb dieses Modeils kann dann nach 
Schatzern mit guten Eigenschaften fur die Regressions- und Storskalenpararaeter der 
einzelnen Cluster gesudit werden. 

Es gibt zwei unterschiedliche Methoden. stochastische Modelle fiir die Clusteranalyse 
zu formulieren: Mischrnpdelle. d.h. Modelle, bei denen die Punkte uriabh&rigig identisch 
verteilt sind. Die, Werte werden mit festgelegten, aber unbekannten WahrscheinBchkeit^n 
aus unterschiedlichen Populationen erzeugt. In Modellen mit fester Zuordriung sind die 
Punkte unterschiedlicher Cluster dagegen unterschiedlich verteilt und die Zugehorigkeit 
eines Piinktes zu einem Cluster wird als fester, unbekarinter Mod&lparaineter behandelt. 
In Abschnitt 2 werden die unterschiedlichen Modelle vorgestellt. 

Ein Spezialfall der zwei ten Modellvariante sind Wechselpunktprobieme („changepoint 
problems- ), flber die im Regressionsfall am meisten bekannt ist In einem Wechselpunkt- 
modell andern sich die Regressionsparameter in Abhangigkeit von der Zeit pder anderen 
Regressoren. In Abschnitt 3.1 wird ein kurzer Uberblick iiber die diesbeziigliche Litera- 
tur gegeben. Ein solches Modell konnte auch fiir den Telefondatensatz benutzt werden. 
AUerdings wird in der Literatur iiber Wechselpunktprobieme norrnalerweise liicht vor^ 
gesehen, dafi ein System wieder in den alten Zustand zuruckspringt (im Datensatz nach 
1970). 

Weiter ymrden Kleinste-Qua-drate- und Maximum Likelihood (ML)-Schatzer fiir den 
Fall vorgeschlagen, daB die Zugehorigkeit der Punkte zu den Clustern als unabhangig 
von den Regressoren vorausgesetzt wird. Diiese Ansatze werden in den Abschnitten 3.2 
und 3.3 diskutiert; Uber die theoretischen Eigenschaften dieser Schatzer gibt es bislang 
im Regressionsfali kauni wesentliche Result ate. Ein groBer Teil der Literatur befafit sich 
mit der Entwicklung konyergenter Algorithraen zur Berechnung der Sch&tzer. Fiir die 
Schatzung der Clustehahl wird haufig die Minimierung von infdrmationsbasierten Kri- 
terien vorgeschlagen, fur , die es aber nur wenig theoretische Rechtfert igung gibt . 

Im allgemeiheh kann fiber Abhangigkeiten zwischen Regressoren und Regressions- 
parametern keine einfache Voraussetzung gemacht werden.; Clustermodelle mit fester 
Zuordnung: ohhe die restriktiven Voraussetzungen des Wechselpunktproblems wurden 
bislang nur im Lokationsproblem 3 behandelt. In Abschnitt 3.4 ubertrage ich einen ML- 
Ansatz von Scott und Symons (1971) auf den linearen Regressionsfali. Abschnitt; 3.5 
stellt kurz alternative Ansatze zur Beharidlung des Regressions-Clusterproblemes vor. In 
den Teilen von Abschnitt 3 wird ein Uberblick fiber die bisher vorhandene Literatur zur 
Problemstellung gegeben. 

Eine wesentliche Voraussetzung fiir Resultate, fiber konsistente Schatzungen in clu- 
stererzeugenden Modellen ist die Ideritifizierbarkeit der Modellparameter; Die Parame- 
terwerte, die; eine bestimmte Verteilung definieren. mfissen eindeutig seih. In den Ab- 
schnitten 4 bis 6 wird die Identifizierbarkeit der vorgesteilten Modelle untersucht, 

2 Unter einem ^Modell 11 verstebe ich eine Familie von Verteilungen {P$ t 0 € 0} auf einem Raum mit 
einer <r- Algebra, ublicherveise (JR?,JB*). Mit „Verteilung u meine ich Pq fur ein bestimmtes $. 

3 Wehn in dieser Arbeit vdm Lokationsproblem die Rede ist, dann ist die Analyse von Daten mit 
Modellen gemeint, in denen unterschiedliche Teilmengen der Datenpunkte (Cluster) durcli Verteilungen 
der Form F(A(y - 6)] ,y € JBP mit unterschiedlichen Parametern b€ IR P (Lokations-, Lageparameter) 
beschrieben werden sollen. Der Modellparameter A € IR P kann fest, frei, bekannt oder unbekanht sein. 
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Es stelltsich heraus : dafi hlaufig nicht alle Parameter identifizierbar sind. Zum Beispiel 
sind im Model] mit fester Zuordnung die Zuordnungsparameter nicht identifizierbar. Fur 
die Identifizierbarkeit von Regressions- und Storskalenparametern werden hinreichende 
Bedingungen an die Regressoren hergeleitet. 

Der Telefondatensacz wirft aber Probleme auf. die. mit der skizzierten Herangehens- 
weise schwerlich zu losen sind: 

• Es ist nicht jclan pb ein Modeil mit rnehreren Clustern dem Datensatz angemessener 
ist als ein Modeil mit einer Melirheit von Daten aus demselben Regressionsmodell 
und einer Minderheit nicht naher spezifizierter Ausreifier. 

• Es ist nicht klar, ob der Ziisammenhang in alien Clustern linear ist 

• Es ist nicht War, ob es Punkte gibt^ die sinnvollerweise zu gar kcinem oder rnehreren 
Clustern dazugerechnet werden spjlten. Was ist mit den Jahrea 1963 und 1970, ak 
die Zahlung umge?tellt wurde? 

Diese Probleme tauchen nicht nur im Falle der Telefondaten auf. Welches Modeil fur. 
einen gegebenen Datensatz angemessen ist, vveifi man yon vornhereih nie. 

1*3 Exkurs: Angemessenhei t von Modellen 

Fur die Motivation der spateren Abschnitte spielt die Funktion von Modellen in der 
Datenanalyse eine groBe Rolle. Daher mochte ich kurz die Vbrstellungeri skizziereh, die 
fur meine Arbeit maflgeblich sind. 

Der Satz „Ein bestimmtes Modeil ist angemessen fur einen Datensatz" bedeutet 
sinnvollerweise nichi: „Der Datensatz ist von einer Verteilung dieses Modells generiert 
worden." Eine solche Aussage wiirde sich auf keine Weise verifizieren lassen, und es ist 
kaum vorstellbar, dafi sie jemals stimmen konnte. Davies (1995) schreibt: 

The term v adeqtMa" reflects the philosophy that a model u hot true nor even trea- 
ted as true, the mode} is regarded asibeing adequate for some given purpose. (, .;) The 
adequacy region specifies those probability models whose samples typically look like the 
actual data. 

Die „ adequacy region" ist Davies 1 Ansatz, Angemessenheit formal zu definieren. „Ty- 
pically look; like" bedeutet hier, dafi der Datensatz eine - je nach Interpretationsziel 
definierto JBigenschaft hat, die Daiehsatze aus dem entsprechenden Modeil mit hoher 
Wahrscheinlichkeit haberi. 

„ Angemessenheit" hat bei Davies also zwei Aspekte: 

• Erzeugt man kiinstlich Daten aus einer geeigneten Verteilung eines angemessenen 
Modells, so sollen diese Daten dent vorliegenden Datensatz ahnlich sehen, 

• Der Begriff i5 ahnlich" istsubjektiv. Ob ein vorgegebener Datensatz einem typischen 
Modelldatensatz „ahnlich" sieht, hangt von Ahnlichkeitskriterien aft, die man selbst 
wahlen mufi. 

Ein dritter wichtiger Aspekt ist, dafi ein angemessenes Modeil dafur geeignet sein sollte, 
die Fragen zu beantworten, die man an den Datensatz hat. 
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Zum Beispiel ware em homogehes lineares Regressionsmodell mit normalverteiltem 
Storterm u fur den Telefondatensatz nicht arigemessen: Die Residuen sind in auffalli- 
ger Weise und entgegen den Modellvoraussetzungen abhangig vom Regressor x (was 
zii formalisieren ware, dm Davies 5 Ansatz anzuwendeh). Ein lineares Regressionsmodell 
far die Jalire 1950-1963 und 1971-1973 wird dagegen nach Davies 5 Kriterien kaum fur 
unarigemessen gehalten werdeh konnen. Es kanri jedoch nicht alle Fragen an den Daten- 
satz beantworten, wenn man sich dafur interessiert, wie die restlichen Jahren genau zu 
interpretieren sind. Eifce Mischung aus zwei linearen Regressionsmodellen kann vermut- 
lich die Jahre 1964 und 1970 nicht „angemessen u anpasseri. In Abschnitt 10.1 wird der 
Teiefbh-Datehsatz als Anwendungsbeispie! furdie in dieser Arbeit bet rachte ten Verfah- 
ren diskutiert. 

Es jgibfi auch Jbat^atze, die > bis auf die Verwendung eines Zufallszahlengenerators - 
tatsachlich aus eiher Mischung: mehrerer iinearer Regressionen stammen, wobei aber die- 
se Mischung mit statistischen Methoden kaum von einem geeigneten homogenen Model! 
oder eiiier Mischxmg iWt ^ganz anderen P^Meterwerteii' zu Uriterscheidei* ist. Zum Bek 
spiel .i^b:^gr: |nj^1^$il<ilu]ag yerteilt nach JV(o,i)ymit Wahrschdnlichkeit 0.5 M f = 0.5x+u r 
mit derselben WahrscKeinUchkeit y = >~ Q.5x + % wobei u verteilt nach fsf^y erzeugt 
wprden ist. Das erzeugende Modell ist dem Datensatz sicher nach Davies'sclien Kriterien 
ahgemesseii. Dennoch bringt die Analyse des Datensatzes mit den Regressionsparame- 
terii eiries solclieri Mischiriodells offehbar keihfe anschaulich brauchbare, interpretierbare 
Vorsteliung voii den Daten. 

Diese Oisfcussioii soli verdeut lichen , was geiheiht ist, wenn in dieser Arbeit von „An~ 
gemessenh^ Das Wort wird allerdings informell benutzt. Das formale 

Kbnzept der ,,adequacy region" wird riicht weiter verweadet; 
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Abbiidung 2: Gibt es hier Cluster? . 
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1.4 Fixpunktciuster (Teil II und III) 

Der Schwerpunkt dieser Arbeit liegt in der Entwicklung eines Clusteranalyse-Verfahrens 
(„FixpunktclUsteranalyse tt ), das „anschaulich bedeutsame" Cluster finden soil. Dabei soil 
nicht vorausgesetzt werden miissen, daB eines der vorgestellten Modelle fur den gesamten 
Datensatz pafit. Das Verfahren ist nur in dem Sinne modellbasiert, daB ein klassisches 
lineares Regressionsniodell fiir einen Teil der Daten angemessen sein soil, bzw, unter- 
schiedliche Regrcssionsmodelle fur unterschiedlichc Teile dpr Daten. Diese Tedl$:dtt .Da- 
tensatzes solleh gefunden werden, DieEntwicklung des Verfahreris ist inspiriert durch die 
robuste Statistik und die Identifikation von Ausreifiern. Abschnitt 3.5 diskutiert yerwand- 
te Ideen aus der robusten Statistik fur die Clusteranalyse. Die Idee der Fixpunktciuster 
ist, daB keiner der Punkte eines Clusters: bezugiich der fur den Cluster angemessenen 
Verteilung AusreiBer ist. aber alle iibrigen Punkte des Datensatzes. Ein. Fixpunktciuster 
ist also ein Teildatensatz rait bestimmten Eigenschaften. Dadurch muB nicht jeder Punkt 
eines Datensatzes zu einem Cluster gehoren, andererseits konnen sich die Cluster auch 
uberschneiden. Mit dem oberi diskutierten Begriff von ^Angemessenheit" ist es denk- 
bar, dafi ein Punkt zu mehreren Teiidatens&tzen gehprt, fur die; Regressionsmodelle mit 
unterschiedlichen Parametern angemessen sind. 

Das Konzept wird in den Abschnitten 7.1 bis 8.2- eingefuhrt,, nachdem der BegrifF 
„AusreiBer ;< in Anlehiiurig an Davies und Gather (1993) formal definiert wdrden ist. Fix- 
punktciuster werden so\yqhl als exploratives Verfahren fiir Datensatze („Fixpunktcluster- 
vektoren") definiert, als auch als ^Parameter a von stochastischen Modellen („Pixpunkt- 
cl us terindikatoreh " ) , als deren Schatzer das Dateiisatz- Verfahren dann interpretiert wer- 
den kanri; Der Zusammenhang zwischen Pixpunktclustervektoren und -indikatoren kann 
bei geeigneter Definition darin besteheri^ daB die Indikatoren Funktibnate von W-Mafien 
sind und man die Vektoren erhait, indem man diese Funktionaie auf die empirischen 
Verteilungen anwendet Die Ahwendung der Fixpunktcluster-Idee ist nicht beschrankt 
auf das Regressionsprcblem. In Abschnitt 7.2 wird anhand der Chsteranalyse yon Da- 
tensatzen aus; ({0, l} p ) n iliustriert, wie Fixpunktciuster auch fiir aridere Situatiohen de- 
finiert werden konnen, Im Regressionsfall ist jedem Fixpunktciuster ein Kennwert avis 
IRF+ 1 x JR+ zugeordnet, der als Schatzung des Regressionsparameters und der Storyari- 
anz eines linearen Regpre^ionsmodells betrachtet werden kann. 

Das Fbcpunktcluster- Verfahren beruht auf der Losung einer Fixpunktgleichung. In 
Abschnitt 9 wird eih Algorithmus angegeben, urn im Regressionsproblem in gegebenen 
Datensatzen Losungen dieser Gleichung* d,h. Cluster, zu finden. Die Konvergenz dieses 
Algorithmic wird bewiesen. 

Teil III ist den thepretischen Eigenschaften der Fixpunktciuster in stochastischen 
Modellen gewidmet. Die Resultate beziehen sich dabei nicht auf Datensatze, sondern 
auf das Verhalten von Fixpunktclusterindikatoren in den Modellen. Es wird bewiesen, 
dafi es zu einer homogehen linearen Regressionsverteilurig genau einen Fixpunktclu- 
sterindikator gibt- Dieser Fixpunktclusterindikator hat genau deh Regressiorispaxameter 
und die Storvarianz der Verteilung als Kennwert. Weiterhin werden Modelle,der Form 
eH 0 + (1 -e)H*, 0 < € < 1 behandelt, wobei Hq ein homogenes Regressionsmodell ist; 
In der robusten Statistik heifien diese Modelle „contamination model" , da Hq sozusagen 
durch H m ,,verunreinigt w („contaminated") wird. Dies^ sind die Modelle, fiir die die 
Fixpunktclusteranalyse angemessen sein sollte: Ein Teil der Daten folgt einem , linearen 
Regressionsmodell, der Rest ist nicht naher spezifiziert. Mischmodelle haben zum Bei- 
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spiel diese Form, wobei dahn H* eine Mischung aus weiteren Regressibnsmodellen ware. 
Aufgrund rechnerischer Schwierigkeiten wird hierbei meistens ein eindimensionales Lp- 
kationsmodell (d.h. eine Regression, die nur aus einem Achsenabschnitt besteht) pder 
das (komplementare) Eegressionsmodell ohne Achsenabschnitt behandelt. Es wird unter 
gewissen Vcraussetzungen an e und H* die Existenz yon Fixpunktclusterindikatoren im 
contamination model** bewiesen. deren Kennwerte von deri Modellparametem von Hq 
nur eine beschrankte (kleine) Abweichung haben; 

Die Resiiltate sirid mifc Aussageri fiber „ Fisher-Korisistenz" von Fiinktionalen ver- 
gleichbar. Dafi die: Regressionsparameter yon Fixpunktclustervektoren in Datensatzen 
latsachlich gegen Fixpunktclusterindikatoren konvergieren, falls n -> oo, konnte ich 
bisher nicht zeigen. Dazu mufi; allerdings gesagt werden, daS vergleichbare (korrekte) 
Ergebhisse auch fiir die ML-Schktzer im Regressionsfail nicht existieren, fur die sotche 
Aussagen vermutlich leichter zu zeigen waren; Anders liegt die Situation dort allerdings 
bei anderen Problemstellungen, zum Beispiel im Lokationsfall In Abschnitt 4 bei Bock 
(1996) wird hierzu ein Literatur iiberblick gegeben . Bock weist dort auch darauf bin (Be- 
merkung 4.1), dafi in der Clusteranalyse haufig die Konvergenz der SchStzer gegen ihre 
Funktionalwerte im Idealmodell geklart ist, nicht aber die Entfernung dieser Funktional- 
werte von den Modellparametem - im Gegensatz zur hier fur Fixpunktcluster betriebenen 
Theorie. 

Der praktische Wert der Theorie fiber FLxpunktclusterindikatoren ist schwer zu be- 
urteilen. Es Wn nicht quantifiziert werden, in welchenl Mafie die Ergebnisse fur die 
Anwendung auf Datensatze relevant sind. Das ginge nur, wenn die Indikatoren schwach 
stetige Funktionale wareji, d.h. wenn die Werte fiir empirische Verteilungen, die den theo- 
retischen Modellen benachbart sind, iii der Nahe der Modellindikatoren waren. Ande- 
rerseits beleuchtet die Theorie den Zusammenhang zwischen dem heuristischen Konzept 
„ Fixpunktcluster' 4 und deh Parametern clustererzeugender Modelle. Es zeigt sich zumin- 
dest in einigen Idealsituationen, dafi ein „FixpunM cluster" eine grofie Verwandtschaft zu 
den Komponenten von Mischverteilungen hat. 

1.5 Vergleich der Verfahren (Weil TV) 

Um die WirkungsweLse der Fixpunktclusteranalyse auf kpnkrete Datensatze zu erforschen 
land sie mit alternativen Moglichkeiten zu yergleichen. habe ich eiae Simulationsstudie 
durphgefuhrt. die in TeiLIV beschrieben wird. Die Simulationsstudie beschrankt sich 
auf Datensatze, die yon einem der normalen chistergenerierenden Modelle aus Abschnitt 
2 erzeugt wurden, also ohne nichtlineare Zusammenhange und ohne Ausreifier, die die 
Modelivoraussetzungen verletzen. Weiterhin liegt ein Schwerpunkt auf Situationen mit 
gut voneinander getrennten Glustern. Im : zweidimensiorialen Fall Heifit ;,gut getrennt" 
deutlich sichtbar. Diese Modelle sind spzusagen die „naturlichen Testobjekte" fur die 
Verfahren. Datensatze mit ^kunsthchen Ausreifiern" wurden erzeugt, ihdem ein isehr klei- 
ner Anteil der Daten von linearen Regressionsverteilungen mit extrem hoher Storvarianz 
erzeugt wurde. 

Als alternative Verfahren wurden die ML- Verfahren fur das Mischmodell und das 
Modeil mit fester Zuordnung verwendet. Es wurde immer davon ausgegangen, dafi die 
Clusterzahl unbekannt ist. 

Die Simulationen vermitteln einen Eindruck davon, wie schwierig die automatische 
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Behandlung der hier diskutierten Datenanalyse-Probleme 1st. Fur die Fixpunktcluster- 
analyse miissen ofFenbar Cluster wesentlich ktarer voneinander getrennt sein ais fur die 
ML-Verfahren (und im niedrigdimensionalen Fall fur das Auge), um sie zu linden. Das 
ist inspjfern kein Wunder, als dafi die Clusterstruktur bei den ML-Verfahren Teil der 
Modellvoraussetzung ist. Aiidererseits haben die ML-Verfahren grofie Schwierigkeiten, 
wenn die Daten in der Nahe irregularer Situationen sind, d.h. bei ,,ausreifiererzeugenden 
Clustern u oder schwer identifizierbaren Parametern. 

Meine Arbeit befihdet sich ini Grenzbereich zwischeh mathematischer Statistik und 
Datenanalyse in einer Situation, die durch die schematische Anwendung yon Standard- 
verfahren niqht zu bewaltigen ist- Neben der Diskussion solcher Standardverfaliren und 
Standardmodelle habe ich mich bemuht, mit den Mittcln der statistischen Theorie und 
Simulation eine heuriscische Idee zu uMersucheii, die allenfalls teilweise modellbasiert 
ist Die Arbeit st^ellt also eine neue Moglichkeit der Datenanalyse zur Diskussion. Neben 
ihrer kritischen Betraclitung werden Anregungen zur allgemeineren Verwendung und zur 
Verbesserung der Fixpunktclusteranalysc gemaeht. Ich hoffe, dafi einige der in dieser 
Arbeit angerissenen Ideen der weiteren Betrachtung wurdig sind. 

1.6 Pormale und stilistische Bemerkungen 

Nicht alle Teile der Arbeit bauen hiierarchisch aufeinander auf. Die: Arbeit hat £ozusagen 
drei ftichtimgen, die weitgehend unabhangig voneinander lesbar sind: 

• Mo^ilierung iiiid Identifizierbarkeit (Teil I, eyentuell ohne Abschnitt 3), 

• Theorieder Fixpunktcluster (Teil II und Teil III), 

• Empirischer Vergleich yon Verfahren zur Analyse von Mischungen linearer Regres- 
sioMn (Ate(Mitte i und :3 ? Teil II und Teil IV). 

Iin %gensatz zur Mehrheii der matheuiatisc^^ bei mir 

haufig £u£ Arbeiteii, die auss<MieMch passiv Ibrmuliert sind, machen auf micb selten 
einen lebendigen Eindruck, Ebrmulierungen mit„wir u suggerieren eiae Uberei^timmung 
zwischen Autor/in und Leser/in, die nicht unbedingt vorhanden sein mufi. Ich habe 
hin und wieder bewuBt das „wir" beiiutzt, iiiri zum Beispiel an Voraiissetzuhgen zu 
erihnern |,Wir haben gesehen, dafi ...*), bin aber meistens beim „ich" geblieben, um 
klarzustellen, dafi audi die mathematische Theorie auf Ehischeidungen beruht, die von 
anderen Menschen anders h&tten getroffen werden konnen. 

Alle von mir beimtzten Resultate anderer Autbr/innen wurden explizit hereinzitiert. 
Der einzige Fall, in dem ich einen Beweis vdllig analog zu einem anderen Alitor gefiihrt 
habe; ist deutlich gekennzeichriet (Hilfssatz 9.1). 

Die Arbeit enthalt einige nuinerische Rechhungen^ sowdhl in den Beweiseh in Teil 
III, als audi in den Simulationen. Die C-Programme fiir alle diese Rechnungen sind 
bei mir in MS-DOS-Format oder als Listing verfiigbar. Ebenso sind die vbllstandigeri 
Simuiationsefgebnisse von mir erhaltlich. In Teil IV wurden die wesentlichen Ergebnisse 
aufgelistet. Wie dort vielleicht deutlich wird, enthalt die vollstahdige Ausgabe eine grofie 
Menge an uninteressar.ten Informatipnen; ich kann nur vor ihrer Lektiire warnen. 
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Ich habe die meisten englischen FachbegrifFe ins Deutsche ubersetzt, war jedoch nicht 
ganz konsequent bei Termini, fur die sich keine gute Ubersetzung anbot („M^imiu?i Li- 
kelihood"). Verbreitete englische Begriffe werden bei der Einfuhrung der deutschen Uber- 
setzung erwahnt oder sind zumindest im Index verzeiciinet. Der Index soil insbesbndere 
dem schnellen Auffiriden von Schliisselbegriffen und der Identifikation von Abkurzungen 
und englischen Fachtermini dienen. Daher enthalt er sehr viele interne Querverweise, 
aber wenig Eintrage pro Begriff. 

An einigeh Stellen wurde die Verteilungsfiinktioh $ der Standard-Normalverteilurig 
benotigt. Fur sie wurde eine Approximation mit Fehler yon hochstens 7.5* 10~ ? verwen- 
det (Formel .26.2.17 in Zeleri und Severo (1964)). Nornialverteilte Pseudozufallszahlen 
wurden mithiife yon aus rechteckyerteilten Pseudozufallszahlen erzeugt. $~* wurde 
nach Odeh und Evans (1974) mit einer Genauigkeit von 1.5* 10~ 8 zwischen 10~ 20: und 
I.- 10~ 20 approximiert. 

1 ,7 Bezeichnungen 

Ira Zusammenliang eines liriearen Regressionsmodells bezeichnet x die unabhangige Va- 
riable (Regressor). Im Falle der Regression mit Achsenabschnitt ist x e IR P+1 3 wobei die 
p + I.Komponente imrner gleich 1 ist. Die p + i.Komponente des Regressionsparameters, 
(meist /3) ist dann der Achsenabschnitt. x~ bezeichnet in diesem Fall die ersten p Kom- 
ponenten von a?> Das bedeutet jnsbespndere: dim({a:i : i € /}) < p+1 & x£ \ i € I liegen 
auf einer gemeinsamen p — l-dimerisionalen Hyperebene 

H := {aT elR p : dx~ = d}, 2R P 3 a ^ 0, 

wbbei (A) die lineare Hulle von A bezeichnet. ftp ist die Menge der p — 1-dimensionalen 
Hyperebenen des 1R P . Im Falle der Regression ohne Achsenabschnitt ist a; € IRK 

y € IR bezeichnet die abhangige; Variable. Je nach Zusammenhang konnen x, und 
y Zufallsgrpfien, deren Realisation oder Unbekannte in einer Funktionsdefiniiiori sein., 
Nur im Falle der Verwechslungsgefahr bezeichne ich die zugehorigen Zufallsvariablen 
mit X'iYi Diese Notation scheint raff iibersichtlicher zu sein als die Verwendung uii- 
terschiedlicher Bezeichner. Die Gefahr yon Mifiyerst&ndnissen sollte klein sein. Fur eine 
Zufallsvariable u bezeichnet C(u) die Verteilung von u. Fur die n-fache (unabhangi- 
ge) Durchfuhrung eines Zufallsexperimentes sei Zi ~ (xj, ?/,•)', Z := (z u * . — 
[xjiy.i . 1)' € IR P x {!}, r ffr € JR fur i = 1, . . ..n. In diesem Fall tauchen haufig 
Indikatprvektoren g = (g u . g n ) € {0, l} n auf. Dann ist n(g) := E?=i ^ und Z(p) := 
(fjv»"- ■ rZ Jn(g)) T %1V0 ^ 9h = 1 un ^ die. jV paarweise verschieden seien fur i '= 1,. . . ,n(p). 
y(g) t und X(g) seien entsprechend definiert. Fur {x\y) f wird meistens (ar, y) geschrie- 
ben 5 entspf^hend {&\o 2 )\ wobei o* im Falle normal verteilter S tort erme meistens die 
Storvarianz bezeichnet. 

Allgemein werden Matritzen durch fettgedruckte GroCbuchstaben bezeichnet. 1^ sei 
die d-dimensionale Einheitsmatrix. Nullvektoren beliebiger Dimension.werden mit 0 be- 
zeichnet. 

Verteiluhgen werden, abhangig vom Argument,; mit demselben Buchstaben bezeich- 
net wie ihre zugehorigen Verteilungsfunktionen. Ausnahme: $( 0t s) ist die Verteilungsfunk- 
tion der Normalverteilung jV( a ,s) nut Mittelwertvektor a und Kovarianzmatrix S, <P( a $). 
ist, die entsprechende Dichte. Wird der untere Index weggelassen, handelt es sich urn 
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die JV(p,n-Vertieilung. S % sei das Dirac-MaB in a. sei die Menge aller Verteilungen auf 
(IF^.Mn, wobei IB die Borel-cr- Algebra ist. 1st fiir die Regressoren £(z) = G € Pp+i, wo- 
bei £(x p+ i) = Ji, so wird haufig x p+t = 1 als nichtstochastisch betrachtet tind G als Ver- 
teilung aus V p geschrieben, und enisprechend £(ar, G Pp+i trotz (a:, y) G jR p x{1} xJR. 
JT(r) sei die- Menge aller Verteilungen mit endlichem Trager auf einer Menge T U S(J) 
sei der TVager von' J Par J € J(T). G bezeichriet im Falle stochastischer Regressoren 
normalerweise die; Regressprenverteilung, 

"t < bedeutet komponehtenweise <, fails i ); u mehrdimerisionale Vektoreh sind- 
Abbildungen werderi yollstandig rait A : U *-± B, u >-» b oder abkiirzend mit A(*) 
notiert; wobei U der TJrbildraum und B der Bildraum ist. Iridikatorftinktionen werden 
als; 1 ( Aussage). notiert. „ % A* bedeutet, dafi (A n ) mit n -4 oo monoton failt (bei 
Mengen: absteigt) und gegeh A konyergiert. Icb unterscheide 2Rj := [0, oo) und iR + := 
(p s oo). 

1st . von der „Anzahlder Parameter" die Rede, so ist die Anzahl der rellen Komponen- 
ten der Parameter gemeint; also zum Beispiel p 4- 2 fur {0 } a 2 ) € IR P * 2 . Das ,,Dach" (a) 
fiir einen Modellparameter abezeichnet aufier in den Abscknitten xiber Identifizierbarkeit 
einen Schatzer des Parameters. 

E P (f (x)) bezeichnet den Erwartungswert von f(x) wenn C{x) .= P. Falls Verwechs- 
lungsgefahr ausgeschlosseh ist, schreibe ich manchmal auch E(x) oder E(P) (m Ep(x). 
Bei der Varianz: „Var" wird analog vorgegangen. Zu einer gegebenen Verteilung P ist 
P n := ®? = i 

Auf Seite 171 findec sich ein Symbolverzeichnis. 
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Teil I 

Misehungen linearer Regressionen 

2 Modellierung 

In diesem A^^ ich stpdiastisGhe Mpdelle fiir Cluster linearer Regressipnsdaten 

ehu Diese Modelle sincl eine. Art Idealfall fur <lie in dieser Arbeit beharidelten Veffahren: 
Sie lnodellieren den JFall, dafi jeder Datehpuhkt yph einer linearen Regressionsyerteiluhg 
aus einer endlichen Mischung erzeugt wurde. 

Man karin ; ein Experiment, das Cluster Unearer I^ression erzeugen soil, auf uii- 
terscMe^icEei Weise; modeliieren. Bs spllen Verteijungen jfiir y € (St, IB) bzw. (x A y) € 
|jR? + * x If£ iB p ^ bei stpcltastischen Regressoren x gemischt werden, die fplgende Si- 
tuation beschreibeit: 

yi = i-j9 + u t ', £f«0 = Mqj* Li d. fiir 16 /, 

vi em Xi = (i it ,,. i,iipriy € m x {l}, pernor (2:1); 

$ stbc^ unabhahgig von (sofern letzteres sftpchastisch ist), I Inde3qnenge (zum 
Beispiei f == {1, . . ;yn}).. Dabei bezeichnet die p + h Komponente.yon (3 den Achsenal> 
scHnitt x,; heifit „Regr^sor- , yi heifit „abhangige Variable" , Ui heifit ^Stprterm a ? Var(?ii) 
StSrvarianz. 

Die Nomalv^ fiir ! den Storterm Ui r wird fiir Teile der Iden- 

tifizierbarkeitstheprie in. Abschuitt 6 benbtigt In Teil III \vird manchmal erne andere 
Voraussetziing fiir die Verteiltirig des Storteims verwehdet. Er soil aber auf jeden Fall 
symm^risc^ 

Es werden Modelle mit stbchastischen uiid festeri Regressoren unterschieden. Wei- 
terhin gibt eS; zwer gangige Ar ten von Verteilungen, die Cluster erzeugen: Mischmodelle 
und Module mit.feter Zuordhung („Fixed Partition"; eine Ubersiclit iiber stochastische 
Methpden der Glusteranalyse findet man zum Beispiel in Bock (1996)). 

Im einfadisten Modell sind die Regressoren fest vorgegeben und die Verteilung der 
abhangigen Variable ist eine Mischung univariater Normalverteilungen: 



Modell i (Feste Regressoren v Misdimodell) 

I Indexmehge, Su Vi me in fal). J 6 J[T/). 



Bemerkung 2,1 Ich habe thick hier.fur die Schreibweise von Mischverteilungen a& In- 
tegrate bezuglich einer diskreten Verteilung J auf dem Parameterraum entschieden. Das 
macfit die Formulierungen iti den Abscknitten uber Identifizierbarkeit kiirzef. Die haufi- 
ger verwendete Schreibweise (zum Beispiel in Titterington, Smith und Makqv (1985)) 
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machi dagegen deutlicher, we die interessierenden Parameter ausschen: 

s:= |S(/)|, ^:=J{(4a|)} :? also 

9 

Yj tj = 1 1 «i; > 0 ? : ) padrweise verscfneden fur j = 1, . ,. 5. 
Diese Schreibiveise lafit sick mch auf Modell 3 ubertragen. 

Dieubli<fe dafi die Designer/in des Experimentes 

die Werte der a;* selbst gewShlt hat (zum Beispiel EinfluBgrofien in der Physik). Man kann 
die Indexmenge I dann auf unterscMedliche Weise interpretteren: 

• Falls I =. {l y . .,n}, kanri ri als Stichprobenumfang bei der Modellierung eiiies 
konkreten Experimentes interpretiert werden. In diesem Fall lageeine Realisation 
von (vi)iei vori 

• Da em Modell aber angeben soli, wie die Daten entstehen, und nicht, welche Paten 
konkret beobachtet wurden, kann n auch die Anzahl der (eveiituell paarweise ver- 
schiedenen) X{ sein, die zum Design gehoren und fur die mehrere Beobachtungen 
erhoben werden kSnrien. Man koniite sich also auch mehrere unabhangige Realisa- 
tions yon (y,)ie/ vprstellen. 

• Die xi, i € /, konnen auch die Regressoren sein, die theoretisch hatteri gewahlt 
werden konnen, wie bei der Modellierung eines stochastischen Prozesses pder einer 
Zeitreihe. In diesem Fall ware auch I = 27V bder gar Xi = i, / = IR?+ % sinnvoll, 
wobei man zur Parameterschatzung dann immer nur eine Auswahl der (xi,y t ) zur 
Verfugung hat te. 

Das Modell 1 modelliert die y als generiert yPn der Verteilung Ntyfip 2 ) mit Wahrschein- 
lichkeit J{(#,cr 2 )}. Das bedeutet: Die Wahrscheihlichkeit dafur; dafi y { aus einer Mi- 
;schungskomponente mit einem bestimmten Parameter (/?o s 0q) € S( J) stammt, ist un- 
abhangig von i und Xp 

Bemerkung 2.2 Die Unabharigigkeit " der ' ZugeKongkeit der Datenpunkte zu ei- 

ner Mischungskpmppnente^ bzw. einem Cluster vom Regressor x { wird in dieser Arbeit 
irri folgenden als „Zuordnung$unabharigigke:it" bezeichnet. Da die Regressoreh hier nicht 
immer > stpchastisch sind. isi die Zuordnungsunabhangigkeit im qllgemei^eniiicht ate sto- 
chastische Unabhdngigkeit formalisierbar. 

Das ist eine Einschrankung, die in vielen Anwendungssituationen nicht sinnvoll ist. Zum 
Beispiel wird in der Literatur die Situation, dafi die yi abhangig von der Zeit oder deri 
x] aus unterschiedlichen Verteilungen kommen, als „Changepoint-Regression" behandelt 
(siehe Abschnitt 3.1). Aiich fur den Telefondatensatz gibt es offenbar einen solchen Zu- 
sammenhang, Allgemeine Situationen, in denen irgendeine Abhangigkeit zwischen % und 
der Verteilung von yy besteht. werden durch das Fixed Partition Model erfafit. Dabei 
wird die Mischverteilung J durch unbekannte Parameter 7(1), i G /, ersetzt, die fiir 
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Abbildung 3: Glusterzugehorigkeit unabhangig / abhangig von x 
jedes {xiiifi) die Verteilung angeben, die deri Punkt generiert hat: 



Modell 2 (Fesfce l 


legressoren, Fixed Partition Model) 












7 : / ^m p+l x lltf, | 7 (/)| <oo. 




= *oAv - m> € 7(/) 1 


J Indexmenge, r,-, jf 
die erstert p ■ •¥_ 1 un< 


i trfetft Fur c//e i 6 T set 0$) die, Projektion von 7(1) at*/ 


J <? 2 (i) dje Projektion auj die 'jef^e ^mjwnerife 



pie;,Annahme fes^r Regresspren kann in einigen Anwendimgen unrealistisch sein. Zum 
Beispiel interessiert man sich in der Okdnomie Oder Psycliologie fur die Relationen zwi- 
schen (mehr pder weniger genau mefibaren) Eigenschaften von Individuen, die zufallig 
ausgewablt werderL In diesem Fall kann eine einzelne Beobachtung durch em reines 
Mischmodell modelliert werden, aus derh die Stich probe darin unabliangig identisch ge- 
zogen wird. Man umgeht also die Modellierung der Indexmenge /: 
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Modell 3 (Stpchastische Regressorenj Mischmpdell) Es seien (ar^j/i)^/ tm- 
abhangig identisch verteilt mit C(xu yd = Pjt 

Fj{x, y) = J Tt F(x,y } 6)dJ(0), wobei 

F&vJ) = fi(t<x)^Ay- t'WG(t) r 

6 := (ft <t 2 vG) € T $ := iR p+l x JRJ x {?, J € J(7V), 

^ C P p+ i $ei rriefibar (sieke die folgende Bemerkung), wpbei £(x ? +\) = 5i V(7 € 5;. 
Aus Griinden der Eihjachheit wird G imfolgenden meist als p-dimensionale Verteilung 
behandelt undx p +i = 1 set /est 



Bemerkung 2>3 Die Verteilung G der Regressoren ist hter ein Parameter des Modells. 
Um klarzustelleri, ddfi man dadurch keineMefibarkeitsprobleme bekornmt, zitiereich kurz 
einige Ergebnisse axis Abschntit 12 von Hinderer (1970): 
Man defihiert eine a— Algebra B cufP p tviejolgt: 

B := cr({{P € P p : P(A) € B} : A e jB^J3 € IB}). 

Dann gilt: 

• (PpyB) ist em Standard Borel-Raum, d.h. B wird von einer Topologit erzeugt, 
bezuglich derer V p ein polnischer Rdumist (Saiz 12.13). Daraus folgt: 

• B enthalt alle einelementigen Teihnengen aus. V p (S. 87) und damit die Projektio- 
nen auf Vp der Trager der Elemente aus J{T S ). 

• Sex u : ntf** IFt eine mefibare Abbildung, die von oben oder unten beschrdnkt 
ist Dann ist die Abbildung. 

t : (s,P) J u(* ) x)dP 1 (x y P) € UP- x % 

IB q &B~mefibar (Lemma 12.2) Die Voraussetzungen anu werdenvon Verteifungs- 
funktionen trfulk. 

Also ist J{T S ) wohldefiniert, f F(x, y\ m)dJ wohldefiniert auf {T s , ZB P>1 <g)S) und mefibar, 

Da jede Mischungskonippnente eine eigene Regressorenverteilung enthalt, ist die Zuord- 
riung der Beobachtungen zu den Mischungskomponenten im allgemeinen abhangig von 
den Regressoren. Sind allerdings, die G fur alle 9 € S( J) gleich, kann auch Zuordnungs- 
unabhangigkeit mbdelliert werden. 

Fiir die Theorie in Teil III werde ich nbxmalerweise das Modell mit stochastischen 
Regressoren verwenden, da die Produktbildung uber I entfallt, was fiir Rechnungen mit 
Schatzerfunktionalen am leichtesten handhabbar ist. Fiir die Berechnung von.koriventio- 
nellen Parameterschatzern (wie in Abschnitt 3.3) ist das Model! jedoch prpblematisch 
wegen der Abhangigkeit von den normalerweise unbekannten Verteilungen G der Regres- 
soren. 
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Es 1st audi mdglicfc, stochastische Regressqren mit dem Fixed Partition- Ansatz zu 
modellieren. Das daraus resuitierende Model! ist mathematisch am weriigsten handhab- 
bar und mir fallen kerne realistischen Situationen ein, in dehen die Interpretation em 
solches Modell erzwingen wiirde, Ich werde das Modell hier trotzdem vorstellen, denn 
aus verschiedenen Griinden (siehe Abschnitt 14.2) habe ich es zur Datengenerierimg in 
den Simtilationen verwendet In den Abschriicten ttber Parameterschatzung und Identic 
fizierbarkeit werde ich aber nicht darauf eingelien. 



Model! 4 (Stochastische Regress 


oren, Fixed Partition Model) 




»ex) = 0^(«> w <> bei 




xiRj xg, \i(i}\<66-, 


J Ihiexmenge, xuVi wie in (2.1), Q ( 


- Pp+i mefibar, wqbei £(xp+i) - Si ?<? '.6.6,. 



Bemerkung 2,4 Uneare Be^sstonspr^lem^ Trans- 
formations der Form 

wofei t € IR® n)2 trwertierbar, a € IR \ {0}v h € An V kann w^erhiri vor- 

omg^M^^etden^ dd$ (0^^,0il) die letzte Zeile von V ist f urn sicherzustellerh daft 
(r^)p+i =:X 4ttcl in ^sm F^M zu Z>€ V immer D~ l € I>> da die (eteie Zei/e cter 
Inyerseh vph T dann duch (0, , . . ,0, 1) is£ 

J2ds hetjlt, daft ein jtegrvssw^ Fbrm (§. 1) bei Anwendung yori D auf {x y y) 

in ein Modell dwselbm %rmubergekt} betdemff nek in (t~ l y(a0+ b) und d 2 skh m 
$ 2 <t 2 Vi^andelL 

In d^ScM^weise dusModS 2: 

^({rr 1 )^^)^^^) (ay fx'b) = 
= («*+ x'b- (Xx) f iT- i )'W + b)) = 

Dutch. Eiksetten die&r Gleichixng folgi audti die'; Aquivaridnz bzgi D fur die vier in 
diesem Abschmtt eingefuhrten Modelle: 

Model! 1: 1st (y,) t€ / verteilt wie in Modell 1, so gilt fur T t d t b we dben: 

C ((ayi + x f i b)i €J ) = 0 F rxii/v wobei 
J m ((r- l )'{ap + 6),a 2 a 2 ) := J0, a 2 ) a 2 ) S T. 
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Mo dell 2: 1st (yi)iei verteilt wie in, Modell : & f so gilt far T 9 a t b wie oben: 

Modell;3: Isi WeG auch GvtG., wobei 

G r (B) := G{$ : € B} VB € lB*+\ 

undist C[x, y) == Fj toie: in Modell 3, dann gilt fur I\ a, 6 we aten: 

£(rx s ay + x'b) = F/. t wofcei 
J* ((r^)'(a/? + 6), dVvGr) := J&aK (?) V(£ or 2 , G) € TV 

Modell 4: Ist \fG e G auch G r € £, ^if «t (s,vi/Ji<=/ trartet/t in Modell 4, so gilt 
fiirV.a.b wie oben: 

£((r!r^dyr+ x;6) i6 /) = ® F^<),, wobei: 
Y.(t) := ((r^)'(a/?(i) + 6),aV(i), G(i)r) Y* 6 L 

Von alien sp&ier diskuiierten Schatzverfahren werde ich zeigen, dafi sie sich bei liriearer 
Tramform&ion. der D&teh ebenfdlls 'a&ttoriant verhcdten. Das bedeutet, dafi es bei der 
Berechnung der SchStzer moglich ist, die Daten zu transformieren, zum Beispiel auf Mit- 
ielwertvektdr 0 und K ovarianzmatrix I; Theoretische Resultate und die Ergebnisse axis 
Sipiulqtionen fqr.fesfe Parameter lassen siqh durch linecre Trmsformation verqllgemei- 
xiern. 

3 Ansatze ziif Analyse der Modelle 
3.1 Wechselpuhkt pr obleme 

Unter Wechselpunkt- („ Changepoint Probiemen werden Situationen verstanden, in die- 
nen ein System ab einem bestimmten Zeitpunkt oder ab einem bestimmten Wert einer be- 
obachtbaren Einflufigrofie von einem Zustand in einen anderen wechselt. Im Regressions- 
Zusammenhang wiirde sich an eiriem solchen Wechselpunkt der Zusammenhang zwischen 
x und y verandern, also die Regressions- und/oder Skalenparameter. Mit Modell 2 kpnnen 
Wechselpunktproblefhe im Prinzip modelliert werden, wenn sich die Clusterzugehorigkeit 
7 abhangig von zum Beispiel % oder. einer x-Komponente andert. Allerdings unterschei- 
den sich Wechselpunktprobleme von der Situation, die uns in dieser Arbeit interessiert, 
denn man hat dprt eine zusatzliche; Information: Es. ist bekanht, v/ovon die Cluisterzu- 
gehorigkeit abharigt. Daher kann die Anwendung der hier diskutierten Verfahren nur 
dann sinnvoll sein, wenn man sich nicht. sicher ist, ob man es mit einer Wechselpunkt- 
^ituation zu tun hat. Anderenfalls wiirde vorhandene Information ungenutzt bleiben. 

Diese Information ermoglicht bessere theoretische Resultate bei der Parameterschat- 
zung, als in der allgemeinen Clustersituation mciglich sind. Daher gibt es eine Fiille von 
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Literatur uber Wediselpunkt-Regression. Einen Uberblick uber Verfahren und Resultaie 
geben Krishnaiah und Miatf (1988). Der aktuellste mir bekannte. Artikel ist Huskova 
(1996). Der erste Artikel uber verschiedene Klassen linearer Regression (Quandt (1958)) 
formuliert ebehfalis ein Wechselpunktproblem. 

Unter bestimmten Voraussetzungen lafit sieh im Wechselpunktproblem audi die An- 
zahl der Weehselpunkte kpnsistent schatzen. Yap (1988) verwendet dazu das Schwarz J sche ; 
Kriterium (auch n Bay^'sches Informatioriskriterium" BIC; Schwarz (1978) schlagt es ur- 
sprunglich fiir die Modellwahl in der Regression vor): 

InLVtoY — ^kisfinn^xaBx (3.1) 

Dabei sei s die Anzahl der Wechselpunkte (spater: Anzahl der Cluster), n die Anzahl 
der Beobachtungen, £ n (s) das Maximum der Likelihopdfuiiktion im diirch $ definierten 
Modeil und k(s) die Anzahl der zu sehatzenden Parameter. 

Fur die allgemeine Regressions-Clusteranaiyse gibt es keiiie yergleichbaren Konsi- 
stenzresultate. Die Verwendung des Schwarz'schen Kriteriums fuhrt aber auch dprt zu 
brauchbaren.Ergebnissen, wie sich sp&ter zeigen wird. 

3.2 Kleinste Quadrate 

Gegeben sei nun die Situation, dafi keine weiteren Informationen dariiber vprhanden 
sind, wodurch iinterschiedliche Cluster linearer Regression verursacht werderi, Wenn die 
Anzahl der Cluster s bekannt ist, kann man die Methpde der kleinsten Quadrate (KQJ 
anwenden, urn die Regr essionsparametef zu schatzen 4 : 

£ E.l(C(i) = %*if = ; min (3:2): 

Dabei sei s wieder die Anzahl der Cluster, n die Anzahl der Beobacttungen und £ • 
{1. . . . , n} *4 {1, . . . r s] eine Abbildung r die die Qlusterzugehorigkeit der einzeinen Punk- 
te angibt, Fiir dieses Problem konvergiert folgender Algorithmus zumindest gegen ein 
lokales Minimum der Zielfunktion: 

1. Beginne mit einer Startpartition 

2. Berechne die KQ-Schatzer fur die einzeinen Cluster. 

3. Ordne jeden Punkt dem Cluster zu, in dem er den kleinsten Residuumsbetrag 
liefert. 

Dieser Algorithmus wurde zuerst vorgeschlagen von Bock (1969) 5 . Spaeth (1979) weist 
darauf hin, dafi dieser Algorithmus manchmal Cluster generiert, deren Regressdren auf 
einer geraeinsamen p-dimensionalen Hyperebene des jSR ?+1 liegen, sum Beispiel Cluster 
mit weniger als p + 1 Punkten, so dafi der KQ-Schatzer nicht mehr berechenbar ist. 
Er schlagt einen Austauschalgorithmus vor. Die Arbeit von Spaeth wurde insbesondere 
in den Wirtschaftswissenschaften beachtet. Es gibt eine Reihe von Verallgemeinerungen 

4 Bis zum Ende von Abschnitt 3 sei I = {1 ? . . . , n}. 

5 B6ck beweist auch die Konvergenz, sogar allgemeiner fttr y giRf, t > 1 und entsprecliende x y 0. 
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auf kompliziertere Regressionscluster-Situationen, die in der Okonometrie auftauchen 
(siehe zum Beispiel Wedel und Steenkamp (1991)); Da die Zielfunktion mit steigender 
Clusterzahl fallt, kann man die Zahl der (Cluster nicht mit dem KQ-Kriterium schatzen. 
Charles (1979) schl&gt vor, die Anzahl der Cluster so zu wahleri. dafi das mit der Ahzahl 
der Cluster steigende Verhaltnis der Varianz zwischen den Clus tern zur Gesamtvarianz 
einer globaleri Regression einen „Knickpunkt* hat. 

Die Bereehnung von Regressionspa-rametern mit dei KQ-Methode ignoriert in den 
vorgeschlagenen Mbdellen die normalerweise unbekannten Skalenparameter of, ... , 
In Abschnitt 3.4 wird sich zeigen, daB.die KQ-Methbde m Modell 2 im Fall <j\ = . * . = a] 
Equivalent zur ML-Schatzurig ist. 

Einen altefnativen KQ-Ansatz liefert Jajuga (1986). Er setzt in Modell 3 voraus. 
.dafi die Regressoren - abgesehen vom Achsenabschnitt - in alien Clustery normalver- 
ieilt sind, d.h. Q = W{ n ,XA , )\ r l € 2R P , A invertierbar p x p}. In diesem Fall sind die: 
gemeinsamen Verteilungen F(«vft <?\ (?) reparametrisierte p + 1-dimensionale Normal- 
Yerteiluhgen (siehe Beweis von Safcz 6.7). Jajuga schlagt yor, zuerst eine Clusteranalyse 
.fiit- Aag, .mebr4iiQ]6^ioiiale Lokationsproblem durchzufuhren. Das. kann zum Beispiel mit 
Hilfe einer ML-Schatzurig;; im Mischmodeli fur p + 1-dimensidnale Normalverteilungen 
geschehen. Innerhalb der Cluster wird dann der nbrmale KQ-Regressiorisschatzer be- 
rechnet. Die statistischen Eigenschaften dieses Verfahrens sind unklar. Die Regressoren 
als, normalverteilt vorauszusetzen, ist eirie starke Einsdirankung. Andererseits werderi 
dadurch Identifizierbarkeitsprpbleme ausgeschlqssen (siehe Satz 6.7). 

3.3 ParametersehStzung im Mischmodeli 

Wir betrachteh nun Modell 1 in der Fonnulierurig aus Bemerkung 2.1. Sei vorerst die 
Anzahl der Mischungskpmponenten $ bekarint; ;Es ergibt sich folgeride Loglikelihood- 
fiinktidn: 

In L n [s; (ft, aftci), Z] = 

Den ersten Vorschlag zur Bereehnung des ML-Schatzers fur ((ft, aj, ei), . . . , (&,, of,, 
machte Quandt (1972), Hosmer (1974) lost das Problem fiir p .= 1 und 5 = 2 mit einem 
Newton- Algorithmus. Mit audi fiir hohere Dimensionen und Clusterzahlen sinnvollem 
Aufwand ist In mit dem EM-Algorithmus nach Dempster, Laird und Rubin (1977) 
lokal zu maximiere^. Dabei wird wie folgt vorgegangen:: 

Schritt 1:: Wahle erne Startpartition (efi),i=i t ... l nj==ii„.,3j wobei £j =1 % == 1 Vi r 
Schritt 2; 

n 

Schritt 3: sei der KQ-Sch&tzer fiir j = 1,....5 mit durch (li,)i=i n gewichteten 

Beobachtungen, d.h. 

^ - (XMiag(e^) i=1 ,..., n X)- i XMiag(^) i=1 ,..., n ^ 
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Schritt 4: 



^ m^m Vj=1 ,..„, 

fl€j 

Schritt 5: 

... g J*VM) (y ' ;) w_1 -1 

Schritt 6: Abbruch, wehn Vergrofierung von In L n im letzten Durchgang kleiner als eine 
yorgegebene Schranke. sonst weiter bei Schritt 2. 

Diesen Ahsatz leiten DeSarbo unci Cron (1938) her. e*j kann als die geschatzte Wahr- 
scheinlichkeit, dafi Punkt i von Mischungskpmponente j erzeugt ist. interpretiert werden. 
Diese Interpretation- kariii angewendet werden, um die Punkte audi in die Mischungs- 
komppnenten zu klassifizieren (siehe (15.1) im Abschnitt 15.1.2). 

Beraerkung 3.1 Die ML-Methode hat folgendes Problem: In L n ist unbeschrcnkt, falls 
<5f -4 0 fur eine Komponenie j: 

Sei zum Bejspiel $ = 2, Man wahle 0i so, daft y x — P[xi = 0. 02, a| G ZR P+1 x M + seten 
beliebig undfest Ddhn ist fur in = 1, e, : i = 0 fur i = 2, . . . ? n, ct = e,2 — 1 — eh fur 
i=l J ... ) n ? € 2 = ! ^: 



Der efste Summand konvefgtert gegen 66 fur 3f ~> 0. 



2£? 



Fur die Theprie bedeutet das. dafi man nicht an einer globalen Maximalstelle der- Like- 
lihood ihteressiert ist, sondern nur an eihera lokalen Maximum, das eine gewisse Ent- 
fernung vpm durch a' = p gegebenen Rand des Parameterrauras hat. Fur die Pra- 
xis schlageri DeSarbo und Cron (1988) vbr, in Schritt 4 zum Beispiel ':==' 0,1 oder 
eine andere yorgegebene untere Schranke zu setzen, fails nach der regularen Berech- 
nxxng &j unter dieser Schranke liegt. Weiterhin kann es passieren. dafl weniger als p + 1 
der Werte iij, i = 1, . . .,n fiir ein j nennenswert grofier als 0 sind, d.h. praziser: 
diin^ : £ji > k > 0) < p + 1 fur sehr kleines «. so dafi es numerische Schwierigkei- 
ten bei der Berechnung d^ gewiditeten KQ-Schatzers ffj gibt. Dieser Fall mufi bei der 
Implementierurig des Algbrithmus beachtet werden. 

Da die Loglikelihoodfunktion unbeschrankt ist, gibt es keine einfachen asymptoti- 
schen Resultate fur den ML-Schatzer. Iin Lokations-Mischmodell fiir Norinalverteilun- 
gen. wo dasselbe Unbeschranktheitsproblem auftaucht, kann aber bewiesen werden, dafi 
eine Folge von lokalen Maxima der Loglikelihoodfunktion existiert, die konsistent und 
sogar asymptotisch normal ist. Titterington, Smith und Makov (1985) geben auf Seite 
92 einen Uberblick iiber die Literatur zu diesem und ahnlichen Ergebnissen. DeSar- 
bo und Cron (1988) und Kiefer (1978) behaupten Entsprechendes auch fiir das lineare 
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Regressidns-MischmodelL Hire Argumentationen kfanken aber daran v dafi entsprechende 
Ergebnisse fur einfache Normalyerteilungen zu leichtfertig auf den Regressipnsfall iibert- 
ragen werden. Die Tatsache, dafi man es in Modell 1 mit einer Produkt verteilung zu tun 
hat, wird ignoriert 6 . Die Parameter des Mbdells 1 sind miter den Voraussetzungen, die 
in den beiden oben erwShnten Arbeiten gemacht werden, im allgemeinen nicht einmal 
identifizierbar (siehe Beispiel 5.5). Das deutet darauf hiri, dafi man fiir eine korrekte 
Asymptotik scharfere Bedingungen brauchte. 

Quandt riiid Ramsey (1978) schlageh vor, die Parameter nicht uber den ML-Arisatz, 
sondern iiber die momentgenerierende Funktion (MGF) zu schatzen. Dieser Ansatz ist 
eine Verallgemeinerung der Momentenmethode („methcd of moments"), die unter an- 
d^rem fiir die Schatzung der Parameter von Lokationsmischungen verwendet wird (zum 
Beispiel von Day (1969)). Dabei werden. so viele Stichprobenmomente, berechnet, wie 
Parameter zu schatzen sind. Die Pararaeterschatzer werden danri daraus zuruckgerech- 
net. Weil die Varianzen hoherer Sticliprobenmomente sehr hoch sind, schlagen Quandt 
und Ramsey vor, stattdessen uu ^.Vk € IR vorzugeben, wobei k die Anzahl der zu 
schatzenden Parameter ist. Dann wird 

minimiert/ Dabei ist 8 •:= ((/?i,a?,€i), i$2y&i)) 7 nnd 

m(x, uj) := h exp + (1 - e^exp {%xv + i?^ 

die, MGF der Verteilung yon y unter gegebenem x. In der Arbeit wird Konsistenz und 
asymptotische NormaJitat fur die Schatzer behauptet. Auch Quandt und Ramsey vet- 
wenden dafiir eine nicht genau ausgefiihrte Verallgemeinerung vom Fall einer einfachen 
Lokationsmischung zweier Normalverteilurigen. Immerhin scheinen ihre Bedingungen an 
die Folge (x t )i 6 / im Fall s = 2 Identifizierbarkeitsprobleme auszuschliefien, auch wenn 
die Autoren auf diese Frage nicht explizit eingehen. 

Weiterhin geben die Autoren eirien Algorithmus zur Berechnung der Schatzer nach 
der MGF-Methode an, der ofFehbar recht aufwendigist und nicht immer konvergiert. Aus 
letzterera Grund habe ich ihren Schatzer in meinen Simulationen nicht berucksichtigt, 

Fiir den Regressionsfall mit s = 2,p — 1 ohne Achsenabschnitt schlagen Huang 
und Pao (1991) eineii Minimum-Distanz-Schatzer vor. In diesem einfachen Fall tauchen 
keine Identifizierbarkeicsprobleme auf. Die Autoren lei ten Konsistenz und asymptotische 
Normalitat her, geben aber keinen Algorithmus zur Berechnung ihres Schatzers an. 

Der einzige konkrete Vorschlag zur Schatzung der Anzahl der Mischungskomponen- 
teri stammt von DeSarbo und Cron (1988). Sie verwenden (ohne weitere Begriindung) 
Akaikes Informationskriterium (AIC; siehe Akaike (1974)): 

In L n ($) - k($) = max . (3.4) 
*eiv v ' 

Dabei seien wieder 5 die Anzahl der Cluster, ndie: Anzahl der Beobachtungeri, In L n ($) sei 
die Loglikelihoodfunktion im durch s definierten Modell an der Stelle des ML-Schatzers, 

6 Kiefer (1978) spricht dieses Problem in einer Fu£note an. 
7 Quandt und Ramsey beschrSnken sich auf den Fall s = 2. 
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und k($) " =. (p + 3)s,~ 1 seidie Anzahl der zu Schatzencten Parameter: fur jeden Cluster 
fi 6 , a? ! und e, wobei = 1 - E£i >■ 

Inden Simulatibnen in Teil IV wird sich zeigen, daC das BIC (aus (3.1)) bessere Ergel> 
nisse liefert Zur theoretischen Rechtfertigung der beideri Kriterien gibt es hur Ergebhis- 
se im Wechselpuaktproblem (siehelAbschnitt 3:1) und fiir Lqtatiom 
Dort zeigt Lerdux ^19Qi)\ dafi sich mit Hilfe desi AIC urid audi des BIC die vermischehde 
Verteihmg (entsprcc^nd- J in,AbscHuitii2)| fopsisient schatzen JaBt- Damit ist impliziert, 
dafi die Anzahl der Misciiungskompoaenten nicht unterschatzt wird; Ailerdings irtipliziert: 
jto^^tente S^Stzung der vermiscEenden Verteihmg nicht die konsistente Schatzung der 
Anzahl der Mis<±ungskdmponenteii, da sich in einer beiiebig kleinen Umgebung einer 
Mischyertienurig Misch^ mit einer beliebigen gr5Beren Anzahl von MischungSr 

kdmporienten befinden, 

Bemerkung 3.2 ,4.n9§WB^^> $ty e bnk wie das qUen zitierte von feiviix (199%% 
gelte dxich rrh Regressiomclusteffdl Dahh ware das A IC teymptotisch au| keinen Fall 
%$spr ofa daSj BIC, denn die mit dem BIC geschatzte Clusterzahl i$t fiir n > e 2 immer 
■kfeti&r loder-gieich -der iriit defri AIQ gwchateteri Vlitit&z6hl ■ 

Beweisr Sei *i = arg maxfln - k{s% n > e 2 , also | lnn > 1. Dana gilt fiir 
\INi3 t ^ 3^ (weil n^ Defihitiott fc(i) > 

ln^| : ^ lnL n ^^j < fcg)jv k^A) ^ - Hsa)) ^ 

=^lnL a (f);~ \ }nnk(t) < max (in L n (s) - -lnnk(sU # 

: =ksA > arg max (in L„(s) - k lnnfc(s)) . 

sew v " ' 

Bemerkung 3.3 Set Z D := (£>(2i), .... mi* D jemajJ (2,2). Darin gilt fiir belie- 

bige ((Ava?, ei );..., o^.c,)) •' 

lnL„[s* (^,a^,ei), . <v, (/kvcrj ><i). Zj - nlnd = 
= ln£*[f|F-f^ 

<*enn |^(#^)(sf) = ^((rx)»(r-«)'(<.3+e.).o l <r»)(oy + ^'^) (3-5) 

Damit ist der ML-Schatzer im Mischmodell linear dquivariant; Das heifit: Ist 

((A.a^ex),...,^,^,^) 
0^apz)J0^oM^ v^ In L» (s, •', Z) , sb ist 

[(r- i )'(a4+ b), JalM), . . ((T-'YiaK + 6), a 2 ^, 6.)] 
(lokale) Mimmalstelle von In i; n (s,-« t Z /) j; 

argmax[minlnXn(5, Z) - k{s)) == argmax[minlnL n (^ J •, Z 5 }- and 
arg raax[min In L n (s, Z) - 5*(s)lnn] = argmaxtminlnLn^, ;Z D ) - ^k(s) Inn] 

mit k{s) gemafi ($4), d:h. die Schatzung der Anzahl der Cluster mit dem AIC und mit 
dem BIC. ist invqriant unter Transformationen der Form (2,2). 
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3.4 Parameterschatzung im Fixed Partition Model 

Auch im Fixed Partition Model (Modell 2) lafit sich bei bekannter Anzahl s der Cluster 
ein ML-Schatzer herleiten. Hier sieht die Loglikelihoodfunktion mit den Bezeichnungen 
aus Modell 2 folgendermafien aus: 

In £„(„, 7 , Z) = -i £ .(lnftr . + In + '^'^ = (3.6): 
— tf E (l»jr + M + M^£), (3.7) 

=,-.§ (nlh27r + £%ln<r| J -i£>(j), wobei 

:= £ ^ ~5 Xi? \ i = lj.. . ,s, (3.8) 



Die (j9j,<7?) $ i = 1, . . $ seien als paarweise verschieden vorausgesetzt. also $ = j7(J)|. 
Zu schatzen sind hier die i = 1, . . . v n. Das beinhaltet die Schatzung von (0j, aj) r 
j: = 1. . , . . $.< Uber diesen Ansaitz gibt es im Regressibnsfall keine Literatur, Scott und 
Symons (1971) schatzen mit dem ML-Ansatz Partitionen von Lokationsdaten aus mehr- 
dimensionalen Normalverteiluhgen. 

Es ist em Vorteil des Fixed Partition Models, daB die Cluster, die die einzeinen Paten 
generiert habcn,zu den geschatzten Parameterh gehoren, so dafi die ClusterzugehSrigkeit 
der Paten mitgeschatzt wird. Im Mischmodell 1 kann die Zuordnung der Daten zu den 
Komponenten jedoch uber die Qrofiea l# (siehe Abschnitt 3.3) erfolgen. 

Itn Regressionsfall hat das Fixed Partition Model aber noch einen weiteren Vor- 
teiL In Modell 3 wiirden die ML-Schatzer von den unbekannten Regressorenverteilungen 
abhangen. Das Fixed Partition Model ermoglicht dagegen die Schatzung der Parame- 
ter bei Ciusterzugehorigkeiten, die vom Regressor pder von i abMngig sind (siehe die 
Diskussion in Abschnitt 2). 

Zur Berechnupg des ML-Sehatzers: Sei := j. falls 7(i) = (Pj d r h. . gibt 
die Numraer des Clusters an, dem [x^ angehort. Ich diskutiere die Schatzung der f(i), 
($jy0j), die gleichbedeutend zur Schatzung der = 1, . . . , n ist. Aus (3.6) folgt: Fur 
gegebene (/?/, &}) y j = 1, . . . , «, wird In L n raaximiert durch 

C(i) = arg min ^lnaf + ^^^ j • (3,9) 

Weiter ist' (3.7) die Summe der s iiblichen Loglikelihoodfunktionen fur die einfachen 
linearen Regressionsmodelle der Komponenten j = I. . . . ,s mit den Daten (?j,2ft)', fur 
die = j gilt- Also wird InL* fiir gegebene £(<)', i = 1, . . . ,n, durch die ublichen 
ML-Schatzer {fi^ 'dr}), d.h,.die KQ-Schatzer fur fa und 

n i 1=1 
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maximiert. Damit vereinfacht sich die gesckatzte Lbglikelihbodfunktion. denn wegen 
(3,8) ist f(j) = nj fur j = 1, . . , , 5. 

Beginnt man also mit einer Startpartition C(*), i = 1, . . . ,n und iteriert dann ab- 
wechselnd die {$j> <Tj) geraafi (3.10) und die gemafi (3.9). so wird in jedem Schritt 
ln£ n vergrSfiert, bis die Iteration, da die C(i) diskret sirid, nach endlich vielen Schrit- 
ten ein lokales Maximtim erreicht hat: Das macht die Berechnung des ML-Schatzers im 
Fixed Partition Model nach meiner Erfahrung wesentlich schneller als im Mischniodell. 
Die Vorgehensweise ist eine einfachs Variation des EM-Algorithmus aus Abschnitt 3.3. 

Es kann allerdihgs der Fall dim{i { : = j) < p + 1 fur eiri j eintreten. Danri ist 
der KQ-Schatzer nicht mehr berechenbar, AuBerdem mufi bei der Berechnung der Fall 
a? sr o, also Ln = oo ausgeschlossen werden. Dieser Fall tritt insbesondere ein, falls 
% < p + L 

Unter der Voraussetzung of = ,...= o\ ist der ML-Schatzer fur die C(i) und fij der 
KQ-Schatzer aus (3.2), wie man (3.7) entnehmen kann. 

Zur Schatzung der Anzahl der Cluster gibt es auch im Lokationsproblem kaum An- 
haltspunkte. Banfield und Raftery (1993) schlagen einen Bayes'sclien Ansatz vor. der 
aber die Vorgabe einer a priori- Verteilung iiber {7 : J V-» x JR£} benotigt. 

Nach meiner Erfahrung sind das AIO (3:4) iirid das BIG (3.1) fiir diese Situation 
nicht geeignet, da die Loglikelihopdfunktion mit n schneller steigt als Ia n, denn im Fixed 
Partition Model steigt die Arizahl der Parameter mit n. Fur die Simulationen habe ich 
daher das BIG wie folgt modifiziert: 

ltiLn{$):- ^(sjhiii - 0:7 sn = xg&t (3.1lj 

Dabei sei wieder In L n (s) die Loglikelihpodfunktipn im durch s definierten Modell an der 
Steile des ML-Schatzers^ d.h. In L„(s) := In L h ^sJ ML% Z). k{s) = (p + 2)s sei die An- 
zahl \der zu schatzenden Regressions- und SMenp^ameter, Zusatzlich werden n weitere 
Parameter £(*>). mit Wertebereich {1. . . . , $} geschatzt. Die Simulationsergebnisse deuten 
darauf hin, dafl der Summand —0.7 sn eine sinnyolle Wahl ist. ura damit umzugehen, 
Genaueres dazu firidet sich in Teil IV. 

Bemerkimg. 3.4 Marriott (1975) weist: darauf hin, dafi bei bekanntem 3 die entspre- 
chenden ML-Schatzer fiir den Lokationsf all b^i rnultivdriaten nicht 
konsistent, spndern r syHematis'ch verzeTii^ind, Die Argumentation von Marriott ist duck 
aitf den Regressionsdnsterfallanw^ Sie beruhi darauf, 4afi die ML-Schfitzungen fur 
Lage- bzw. Reyfvssiqnsparameter tund Skala fiir jeden Cluster die einfacke ML- Schatzung- 
mit den dem Cluster zugehdrigen Punkteji ist, wenn die. Zuordnung der Punkte zu den 
Clustern gegeberi ist (siehe oben). Die Zuordhungsschdizung nach (3.9) teilt den JR P+1 
in $ Bereiche auf Damit ist die ML-Parameterschatzung genaugenommen die Schatzung 
der Parameter eines Modells, dessert Storterm dbgeschnitten noririatverteilt ist, einge- 
schrdnki auf den Bereich der Punkte, die dem entsprechenden Cluster zugeqrdnei werden) 
Daraus ergibt sich eine Uiiterschatzung der Storskala und - wenn der Zuordnungsbereich 
nicht symmetrisch um die Regressionshyperebene ist - auch eine Verzerrung der Regresr 
sionsparameter. 

Bemerkung 3.5 Set Z D definiert, wie in Bemerkung 3.3. Dann gilt wegen (3,5): 
In Ms,7(l), • ■ - ,7(n),Z) - nlna = lnL„(s,y U): . . . ,Y(n), Z D ), 
wobei 7 *(i) := ((r- l ) 7 (a/3(i) + 6), a 2 a(i) 2 ) Vi = 1, . . . t n. 
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Damit ist der Fixed Partition ML-Schatzer linear aquivcriant. Das heijtt: 1st 

(lokale) Minimalsielle von In L^(a; Z) unter der Nebenbedingwig \lf{{h . . . -n})\ = s } 
[so ist das obm definierte '{lokale} Minimabtelle.yon In jp n (?, •,. Z 1 ?) unter derselbpi, 
Nebenbedingung. Weit&hin ist 'die Sch&tzungvoii is nach (3.11) invariant unter D gemafi 
(2.2) analog zu Bemerkung 3,3 und enisprechend queh nach dem AIG und BIG. 

3.5 Alternative Ansatze 
3.5.1 Robuste Regression 

Die Verfahren, die nun behandelt werden, wurdeh nicht speziell zur Analyse der Modelle 
in Abschnitt 2 eritwictelt. Es handelt sich um heuristisch begrfindete Datenanalyse- 
Verfahren, dereh statistische Eigenschaften nicht erforscht sind und die aiidere Ziele 
haben als die reine Parameterschatzung. 

Ich habe meine Arbeit an den Problemstellungen dieser Dissertation begonnen, indem 
ich mich dafiir inter^^rtibabei qb lokale Minima robuster Regressionsschatzer dazu 
brauchbar sind, Cluster linearer Regression zii linden. Zu diesem Thema gibt es meiries 
Wissens bislang nur eiae Arbeit von Morgenthaler (1990). 

Es gibt zwischen robuster Statist ik und Clusteranalyse; folgenden Zusammenhang: 
Die robuste Statistik bemiiht sich um Schat2er ? die moglichst nicht von Ausreifiern be- 
einflufit werden, wahrend in der Clusteranalyse die; Punkte eines Clusters: im Verhaltnis 
zu den anderen Cliistern AusreiBef sind, sofern es sich um gut getrennte Cluster han- 
delt. In einer Situation mit zwei Clustern ist, also die Problenistellung. die Parameter 
des grofiereri Clusters zu finden, aquivalent zu einer robusten Schatzung fiir den Ge- 
samtdatensatz, die nicht davon beeihflufit wird,,daB bis zur Halfte der Daten aus einem 
anderen Modell stammen, namlich dem kleineren Cluster. Robuste Regressionsschatzer 
sind meistens als globale Minima einer Zielfunktiori definiert. Die Parameter, die die 
Zielfunktibn global minimieren, hangen; yon mindestens der Halfte der Punkte ab, denn 
es ist das Ziel robuster Schatzung, mindestens die Halfte der Punkte gut anzupasseii. 
Robuste SchStzer sind also keine sinnyollen Parametersch&tzer fur kleinere Cluster. Man 
kann sich aber uberlegeri, ob nicht lokale Minima die Existenz von kleineren Clustern 
indizieren kSnnten. Formaler; 

Sei Z der Datensatz. Dann ist ein.M-Schatzer mit aUgemeirier Skala fur den Regres- 
sionsparameter 0 eines hompgenen Regressionsmodells definiert gemafi 

Av = argminf:p(7YW) s wbbei r<(0) := p:2Ri4 2Rj: (3.12) 

Dabei ist <r(Z) ein Skaienschatzer. Weiterhin werden iiblicherweise einige Vpraussetzun- 
gen an p gemacht, von denen insbesondere Achsensymmetrie um 0, Beschranktheit und 
monotones Wachstum fur* positive Argument? wichtig sind, in unserem Zusammenhang 
sogar streng monotones Wachstum bis zu einem Argument a > 0 und dann Konstanz. 
Weiterhin kann man verschiedene Glattheitsforderungen stellen. In diese Klasse fallen: 
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• S-Schatzer (Rousseeuw und Yohai (1988)). Dabei gilt fur a(Z, 0) bei gegebenem 
Schaizer des Riegressionsparameters 0: 

1 A Aft-ff'sA ± max/? 

Per S-Regre^ionsschatzer $ s ist nun definiert als Minimalstelle von a(Z,$) und 
erfiillt daher (3.12) fiir gegebenes cr(Z s $?) aufgrund der Monotonie von p . 

• MM%hatzer (Yphai (1988}|^ In diesem Fall ist a (Z) ein M-Skalenschatzer. Das 
kann zum Beispiel der in (313) definierte S-Skalenschatzer mit eirier anderen als 
der fur den MM-ftegressipnsschatzer verwendeten p-Funktiqn sein. 

• ,,Redescending" (wiederabsteigende) M-SchStzer (Morgenthaler (1990)). In diesem 
Fall ist a(Z) = /; kdnstant vdrgegeben. Die Schatzer heifien „wie<lerabsteigend", 
weil 0 die Ableitmg von p anfiertalb von [-a, a] fet; fl\Ti0i4)) is* eng mit dem 
Einflufi der Punkte z\ aiif die Regressionsschatzurig verburiden. 

Die Zielfunktion in (3.12) wird ublicherweise durch eine iterierte gewichtete KQ-Regres- 
sidn ininimiert. Um eia glbbales Minimum zu findeii, fiihrt man die Iteration mehrfach 
von zufallig gewahlten Startpunkten aus durch. Dabei erhalt man als Nebenprodukt 
meistens hiehrere lokale Minima, die eine Fixpunktgleichung der Form 

$ = {X , W($)Xr l X f W0)y (3.14) 

erfullen* wobei W($) eine Diagonalmatrix mit den vom konkreten Schatzverfahren ab- 
hangigen Gewichten der Beobachtungen ist. Insbesondere hat eine Beobachtung z$ das 
Gewictit 0, wenn Jr,| > a, d.h, p(n) = max p. Ich nenne solche Beobachtungen „ vom 
Schatzverfahren als Ausreifier klassifizierte Daten". 

Ira Falle eines lokalen Minimums wurde also der Teil der Daten z % mit |r^| < a im 
Sinne einer gewichtetea KQ-Regression „gut a angepaBt. Die : Idee s liegt nahe, dafi diese 
Daten zu einem Cluster gehoren. also gemeinsam von einem Regressionsmodell erzeugt 
wurden, dessen Regressionsparameter durch die lokale Minimalstelle yon (3.12) geschatzt 
wird. Man konnte nun alle Mengen von Punkten, zu denen es eiri lokales Minimum gibt, 
welches sie nicht als Ausreifier klassifiziert, als „ Cluster" definieren. 

Diese Vbrgelienswebe unterscheidet sich prinzipiell von den bisher vorgestellten Schatz- 
verfahren: 

• Ein Cluster ware hier ^ldfcaJ" definiert. Damit meine ich: Die Lage seiner Punkte: 
im Verhaltnis zum restlichen Datensatz ist entscheidend, nicht a,ber ein globales 
MbdelL Es gibt keine globale Modellannahme. 

• Es wird keine Partition erzwungen. Das heifit; Es kann Telle des Datensatees geben, 
die zu keinem Cluster gehoren. Es kann Punkte geben, die zu mehreren Clustern 
gehoren. 

• Es wird keine; Optimallosung erzwungen. Das heifit: Aus den gefundenen Clustern 
sind unter Umstanden mehrere alternative Auswahlen von „relevanten" Clustern 
moglich, es kann alternative Interpretationen geben. 
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Ich halte die Existenz von Datenaaalyse-Verfahren, die diese Eigenschaften erfullen, fur 
sehr wimschenswert Wann immer die MqdeUvoraussetzungen nicht geriau erfiillt sind, 
fur die Schatz verfahren zur Verfugung/stehen (zum Beispiel im Telefondatensatz), wann 
iinmer man mehr iiber seinem Datensatz wisseri will als einen speziellen Parameter, 
gehen wertvolle Information durch die Anpassung eines global voraiisgesetzten Modelles 
yerloren. 

Ich werde nun diskutiereny warum ich die Regressions-Cluster^ 
Regressionsschatzern trotzdem auBer in Spezialfallen nicht besondfers sihnvoll finde. Die 
bisherigen Ideen werdm aber in dieser Arbeit weiterhin prasent sein: Konzept des 
Fixpunktclusters, das ich in TeiLlI einfiihre; beruht darauf. dte obeii aiifgezahlten E£ 
genschaften zu erhaJten und die folgenden Nachteile zu yefmeiden: 

•: S-Schatzer sind fur unsere Zwecke imbrauchbar, da a(Zi@$) und p dort so defiriiert 
sind v da& aucli tar jedes loMe Minimum weniger als die^ Haifte der Punkte: als; 
Ausreifier klassifiziert werden: Sei n* > § die Ahzahl der Punkte z^mit p(r*(^)) — ■ 
max/?. Dann ist im Widerspmch zu (3. 13) 

Also kann riiari rnit S-Schatzem kerne Cluster finder!, die weniger als die Haifte der 
Beoba chtungen enthalten. 

• Das Problem bei MM-Schatzem ist &hnlich. Zwar erzwingt 6x6 Definition keine 
Cluster, die mehr alk die Halfte der Punkte enthalten. aber die Skalensehatzung 
;£r(ZJ beraht ininier mindestens auf der Haifte der Daten. Sie wird mismmg. wenn 
es keinen gemeinsamen Cluster gibt, der diese Punkte ent&alt. Da obencrein das* 
selbe a(Z) fur jede Iteration verwendet wird, wird implizit vorausgesetzt, dafii alle 
Cluster dieselbe Storvarianz haben. Das Verfahren fuhrt zu unbrauchbaren Ergeb- 
ni&sen, wenn derjenigen des grMten 
Clusters unterscheiden. 

• Im Falle der wi^er§bstei|endeii M-Schatza? s^l^t Mbrgenthaler (1990) vor, 16- 
kale Minima fiir eine endliche absteigende Folge k t > ... ,., > k£ > 0 von Skalen- 
parametern zu berechnen. Damit werdeii die Probieme der ydrherigeh Verfahren 
umgangen. Andererseits scheint mir der numerisclie Auf wand bei groGeren p und 
h extrem groB zu sein (Mbrgenthaler fiihrt zwei Datenbeispiele mit p ■ = 2, n = 11 
und 24 an). Die Jilenge der gefundenen lokalen Minima, insbespndere bei kleinem 
k kann uniiberschaubar werden. 

Zum Schlufi sei. ndch auf das einfache; Verfahren von Curcic und Pierantoni (1995) hinge- 
wiesen. Sie empfehlen, den robusten LMS-Schatzer (siehe zum Beispiel Rdusseeuw und 
Leroy (1988)) nach seiner Berechnung auch noch auf die Daten anzuwenden, die im er- 
sten Durchgang als AusreiBer klassifiziert wurden. Um damit ein sinnvolte Ergebnis zii 
bekommen, ist natiirlich aber wieder ein Cluster vpnnoten, der mehr als die Haifte der 
Punkte umfaBt. 
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3.5.2 Schwache Hierarchien 

Hierarchische Clusteranalyseverfahreii beruhen nbrmalerweise auf einer Abstands- oder 
Ahnlichkeitsrelation zwischen den Daten. Der (euklidische) Abstand zwischen den Da- 
tenpunkten sagt im Regressionsfall aber nichts dariiber aus, ob die Punkte von einer 
gemeinsamen Regressionsverteilung erzeugt wurden oder nicht. Durch p.+ 1 Punkte, die J 
beliebig weit vorieinarider entfernt sind, kann ja ndch eirie gemeinsame jh dimensionale 
Hyperebene gelegt werden> Wollte man lineare Regressionscluster hierarchisch analysie- 
ren, konnte man aber auf die Methode von Bandelt und Dress, (1994) zuruckgreifen. 
Gegeben set eirie d-variate Abstaridsfunktion 5 : X d >-> JR$, d € IN. Danri ist eine 
Menge C C X ein Cluster, wenn 

Vd , . . . , c d ;G C\ b '€ X - C ::5(c u q) < m&£(<Si d-ub, c,- + i, . . . : c d ). (3.15) 

Bandelt und Dress (1994) zeigen, dafi das dadurch induzierte Mengensystem eine „schwa- 
che Hierarchic" ist. Im linearen Regressionsfall konnte man nun fur d > pA- 2 

1 d 
a 

defiriieren, wobei fag der Kleinste-Quadrate-Regressionsschatzer fiir z u - . . \M sei 8 . 8 
wird also klem, sobald z u ...,Zd gut durch eine gemeinsame Regressionsebene angepaBt 
werden konhen; Auch dieser Ansatz erzivingt keine Partition und ergibt einen „lokal" de- 
finierten Clusterbegrift Ich habe Bin ab£r nicht weiterverfolgt, weii der Rechenaufwand, 
der benotigt wird, um die Mengea C zu finden, die (3.15) erfiillen, fiir n > 50 exzessiv 
ist Systematische Simulationen sind daher derzeit noch unraoglich. 

Fiir Dapen, die man sich als eine Stichprobe v aus, einem statistischen Modell vor- 
stellt, 1st der Ansatz daruberhinaus nicht arigemessen. Ahnlich wie beim Single- Linkage- 
Clustering" miissen nSralich auch hier die Cluster scharf voneinander getrennt sein, um 
(3.15) zu erfiillen. Vereinzelte Pimkte zwischen den dichtesten Bereichen der „anschauli- 
chen" Cluster bewirken meistens, dafi (3.15) von diesen Punktmcngen nicht mehr erfiillt 
wird. Solche Punkte kommen aber automatisch vbr; wenn man eine immer grofiere Stich- 
probe aus einer Verteilung zieht, deren Trager der gesamte IR pn ist. 



8 Wie in Abschnitt 3.2 werden hier impli2it gleiche Stfirvarianzen fUr alle Cluster vorausgesetzt. 
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4 Einfuhrung: Identifizierbarkeit 

Fur Mischmodelle bedeutet „ Identifizierbarkeit", dafi dieselbe Mischverteilung nicht durch 
yerschiedene yermischeude Verteilungen (die J aus Model! 1 bzw. 3) auf einer gegebenen 
Menge yon Verteilungen koristriiiert werden karin. Eingemhrt wurde das Identifizierbar- 
keitskonzept in diesem Zusammenhang von Teicher (1961). 

Die Frage der Identifizierbarkeit ist von grofier Bedeutang, wenn man innerhalb ei- 
nes ModeUes, (zuin Beispiel den Modellen aus Abschnitt 2) Parameter schatzen will. 1st 
namlich ein Modell nicht identifizierbar, d.h. gibt es mehrere vermischende Verteilun- 
gen, die. dieselbe Mischverteilung erzeugen. so ist konsistente Parameterschatzung hicht 
moglich: Auch asymptotisch kann nicht zwischen den durch die vermischenden Vertei- 
lungen definierteh verschiedenen Pararheterri unterschieden werden. 

In dieseri Arbeit sind nur endliche Mischungen auf IRf von Interesse, d.h. die vermi- 
schende Verteilung hat endlichen Trager: 



Definition 4*1 (Identifizierbarkeit: Endliche Mischmodelle) Sei T ein Parame- 
terraum mit einer a— Algebra T, die die Einpunktverteilungen aufT enthalt J(T) sei 
wilder die Menge der Verieilungen auf (T } T) mil endiichem Trager, T {F{+ y 0) : 
0 e T) sei eine Menge von Vejieilungsfunktionen auf JR 4 , 

Cj{ T) ::=: \Hj : Hj(x) = j^FixjjdJ^), x € 2R d , J € J(T) j . 

1st nun Q : J(T) >-* Cj(T) durch Q(J) ~ Hj definiert, dann ist Cj{ T) identifizierbar, 
falls Q bijektiv ist 



Bemerkung 4.2 Auch hter noch . etnmal die, dUmptive Sehrzibwdse. ^on : {Tiiie^ngton t 
Sfriitk Md Makov (1985) (siehe Beinerkung Slip Mil der Notation aus Definition 41 
sei 

C~{H:H(x) = ^ e*>Q, ^c, = 1, 

0i.€T, Vi = l,...,s, *..€ IN ,z envy. 
Dann id C identifizierbar, wenn fur ztvei beliebige Elemente H y H aus C , definiert durch 

9i, i — 1, .. , . , s (bzw. 8s r i = 1, . . . , s) paarweise verschieden, dann und nur dann H = H 
gilt, xvenn-s = s und es eine s— Permutation U gibt, so. dafi 

Ox), . . . , (e„ 9 S )) = {(en(i), 0n(i)), • . . , (en( ? ), 0n(*))). 
s entspricht dabei \S(J)\, entspricht J{0j} aus Definition 4 J. 
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Einige haufig vewendete Verteiluagsklassen erzeugen identifizierbare Mischungen. zum 
Beispiel multivariate Normalverteilungen (Yakowitz and Spragins (1908)). Es gibt jer 
doch bislang keine Ergebnisse fiber lineare Regression. In Abschnitt 5 wird gezeigt v dafi 
sich die Resultate fur Nbrmalverteilungen audi dann nicht einfach auf den Regressions- 
fall ubertragen, wehn map einfache Uberparametrisierung (d.h. Mischungskomponenten, 
deren ftegressoren kollinear sind) ausschliefit. 

Der Identifizierbarkeitsbegriff aus Definition 4.1 reicht Mr die bier betrachteten Mo- 
delle nicht aus: 

• Verteilungeii wte & den: Modellen 1 and 2 haben nicht die Form aus Definition 4.1. 
Produktverteilungen werden in dieser Definition nicht yorgesehen. 

• Es karin (und wird) so sein, dafi hur eiri Teil der Parameter identifizierbar und da- 
her auch konsistetit schatzbar ist, Zum Beispiel sind in, Modell 2 die Regressions- 
und Sfelenp^ameter rheistens identifizierbar (Satz 6.4J, im Gegensatz zur Cluster- 
zugehprigkeit der Punkte (Beispiq;l 5.3). 

Fiir diese Zwecke wird der Identifizier^ nun yerallgemeiriert. 
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Se t SI ein beliebiger Parar 
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Bemerkung 4,5 Cq is&Mer g^<mineies T^el md Mine Menge f da die konkrete 
Zuordnungu) h4 F w wichtig fur die Iden0zierb(^eitist: Ware Cq = {F w ; uj € SI), so 
kohntm mei^^^ m^ definieri werder^ so dafi Oft bzgi derselben 

Aqv^den^oMm i^er^nerbar und ' nichM ic^^^er^ ware: 



, Bemerkung 4.6 Miiitf^Bh^ Befinitign 4-1 definiere 

Darin ist " einc Aquivalenzrelation und Cj(t) ist genau dam identifizierbar bzgi 
„~T*t wenfr Gj(t) ifn 'Sitihe vcm Definition 4 J identifizierbar ist 

Bemerkung 4.7 Sei Cn identifizierbar bzgi „~ u . hi fti C und w die Ein- 
schrankiihg vori „ry u auf Qi, so, ist Cq 1 trivialerweise auch identifizierbar bzgi „~x". 
Dieselbe Inclusion gilt fiir teilweise Identifizierbarkeit Das bedeutet zum Beispiel, dafi 
aus der (teilweisen) Identifizierbarkeit von Mischmodellen (rtach Bemerkung £.6) im- 
mer auch die (teilyieise) Identifizierbarkeit der Modelle mit fesi vorgegebener Zahl von 
Mischkomponenten \S{J)\ = fplgt 
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Bemerkung 4*8 Prakasa Rao (1992) gibt exiien Uberblick iiber Identifizxerbarkeitspro- 
bleme in 0gemeirie^ ' Siiuqttqnen . als, Ms&ungen und Fixed- Partition- Clustern. Die 
Defiriitioneh 4.3 und 44 mirxlen alle diese Pfdbleme abdecken, sofern man sie nock auf 
Identifizierharkeit einzelner Aquivalenzklassety verallgemeinern piirde. Insbesondere ist 
meine Definition von ieilwetsef ldentifi&&harkeit eitte Verallgemdnerung.der „parti$l 
■identifiab^iiy!^ bei Prakasa Rao auf S. 149} 

Die Definitionen werden nun auf die Modelle aus Absclmitt 2 angewendet. 
Beispiel 4.9 (Model! 1) Fiirfestesx = (zj)iej set: 




JeJ(T f ) 



wobei F Xii j wie in Modell i definiert set. Weiterhtn set 

J ~/ J J = J VJJej(Tf). 
Beispiel 4.10 (Mbdell 2) Fiirfestes x = (ft)^ set 

%:= {7 :•• / v> S&^ x M£\ < 00} , 

Cu P = (F^:Fi n = ®F* i ^ , 

wpb$i die i*i/r(*)r * ^ I Pi 6 ^M9&$f I definiert seieri. 
Fifc %$ € fi p desert mm 

Beispiel 5:3 wird Zeigm^ dafi Cq p bzgl nicht identifizierbdr ist. Es ist abet vMer 
£^iy?id^m^|tcft t ^Regr^ssipm- un<l J&d^ ofmedie Cluster^ugehMgke^ 

ieilweise mU^Mfi^^Dc^s^ 

7 ~pi 7 7(^) . = 7(/>. 

Beispiel 4,11 (Modell 3) Set <?j(rj = '(Fjjie^crv)* & tm<TT 5 (versehen rwt der 
&— Algebra tins Bemerkung 2.3) wie in Modell 3, u definiert wie in Bemer- 
kurig 4.6: 

Mit dieser Definition kanii es uriterschiMliche gebeii, die die- 

seiben Regressions- und Skalenparameter haben und sich n%r in der Regressprenvertei- 
lung unterscheideri. Das verursacht Identifizierbarkeitsprobleme (Beispiel .5 .1) und ist 
unter Umstanden inhalilich nicht angemessen: Wenn man unter einem J} Regressions- 
cluster t( eine Menge von Datenpvntien versteht, die von Verteiliingen mit gemeinsamen 
Regressions- und Skalenparameiern generiert wurden, und man die Analyse des Misch- 
modells zu Zwecken der Clusterdnalyse benutzt, dann soltte ein Cluster nicht mehreren 
Mischuhgskomponenten entsprechen. StattJ(T 9 ) kann man dann 

(l 3 := {J € JCTJ : (/?,<r 2 , (?) € S( J), G?G=> (fra 2 , G) $ S(J)} 
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perwjriden. AucKhier geljk wieder 

J ~, J J = J VJ,.J€'n„ 
Uhter Umstanden (Bemerkung 4.12) vdud Cj(t,) durch dieErseiztingvonJ^Fj} durch 

Satz 6.8 brihgt die Ide^ifme^rkeit von Gnj, bzgl. unter einer Voraussetzung. 
an Q. Falls man nichi an def Identifikalion der Jkgii^sW^erUiiung interessiert ist 
und die, Voraussetzung aus Satz 6j8 nichi erjvllt ist, kdnn man Cq, no^ auf ^ei^ei^e 
I&enlifizfer}^^ Dafur sei 

J ~,o $m Vfe*) € K p+l xJR : J{{0,<t*\G) :G€ = J{(/?,<r 2 ,G) : G 6 £ }> 

Jn Beispiel 5.2 wird I sick jedoch zeigeri, dafi auffl, eine noch schwdchere Aquivalenzre- 
laiion\^Psi' ' gebmuchiiuivd, itm tetliveise Identifizierbdrkeijb vpn 0^-zu;zetgen:; : 

J ~,i / 

*••{(# tf 2 ) *:#r 2 f.Gf €;S(j|= -{ga^: (j|apl 6 S{J)}. 

Bemerkung 4.12 Enthalt Q alle endlichen Mischungen seiner Elemente, so gilt 

G 0 := {ft : J € J(T S )} = {Fj rJe fiJ =• Q*. 

Beweis: „D U ist War, „C" ist zu zeigen. Sei Fj ! € Go, /o; •= Jo £ fl„ so da8 
30 y d*[Gx,Gi init 

(7i /C? 2 , J o {03,a 2 ,Gi)} = €l , Jb{#,aS(?|)l = e 2 , ft,c 2 ^0, (4.1) 
Setze Gii- ^lllf* . Definiere nun J. gemSO 

,/.{*} = JoW V» € S(/o) V{(& dr 2 ,Gi), (/?, a 2 , G 3 ), (ft ff 2 , G s )} =: S_(Jb), 
^{(Ker 2 ,^)} := 7,{(l a 2 ,G 2 )} := 0, 

^{fei 8 ^) Jo{(.a, < 7 2 , G 3 )} * Cj + h- 

Es folgt nun mit den BezeichhuEgeh aus Modell 3 aus den Definitioneh von Fj iirid 

= (ei+e 2 ) (^F(s, y, (/?, * 2 , (£)} + -^F(z, ^(0, *»,<?,))] + 
+Jb{p#,G 3 )^ X Jo{0}F(z, y, 0) = 

= ; (ci + h+M{fcd\ G z )})F(x y y{{0,o\G 3 )):+ £ ^oWF^, y,0) = 

JeS-(jb) 

= Fj.(r,y). 

Nach Voraussetzung ist G 3 e C Daher ist nuri ist entweder J, € ft, und also Fj e G„ 
oder es gibt weitere 0, a 2 , Gi, G 2l so dafi (4.1) auch fur J 0 := gilt. In diesera Fall 
wende man dasselbeVerfahren noch einmal an. Nach einer endlichen Anzahl Von solchen 
Schritten {\S(J)\ ist endlich und \S(J,)\ < \S(J.)\) ist J, € fi,. Also gilt Fj € G„ was zu. 
zeigen war. 
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5 Beispiele fur NiGht-Identifizierbarkeit 

In diesem Abschnitt wird gezeigt, dafi Mentifisierbarkeit von Regressionsmischungen mit 
normalverteiltem St8rterm nicht autpmatisch au$ der Identifizierbarkeit fur Normalver- 
teilungen fclgt, wie zum Beispiel DeSairbo und Cron (1988) behaupten. Man kann aus 
den Beispielen ableiten, welche Parameter unter w^lchen Umstanden nicht konsistent 
schatzbar siiid. Zwar folgt aus den Beispielen nicht, dafi die Voraussetzuhgen, die iri Ab- 
sqhniU 6 fur Identifizierbarkeit gegeben werden, so allgemein wie moglich sind. aber es 
wird doch gezeigt, dafi zumixidest vergleichbareiVoraussetziingen notig sind, um Identifi- 
zierbarkeit su erhaiten. Es gibt zwei w^entliche Grunde fiir die Nicht-Identifizierbarkeit 
linearer Regressionsmischungen: 

• Nicht-Identifizierbarkeit wegen 0oblemen Nicht-Identifizier- 
barkeit der Regressorenverteilung in Modell 3 oder Nicht-Identifizierbarkeit der 
Clusterzuordnung in Modell ;2, weil der Regresspr so li daB die Zuprdnurig nicht 
eindeutig ist. 

• Nicht Jdentifizierbarkeit wegen zu vieler Cluster fur zu wenig Regressoren. Es wird 
sich zeigen, dafi das audi jpassiereri kahri. werin fur j eden einzelnen Cluster geniigend 
Regressoren yorhanden sind. d.h. kein ^|isl^^.»cE uherparametrisiert ist, 

Beispiel 5.1 (Regressoren nicht ideritifizierbar) Es gelten die Bezexthmmgen aits 
Modell 3 und Beispiel iJl.Esenthatiemm Q nich^identifizierbareendHche Mischungen 
Minir Elem&nte. also 

G = f PdJ(P) = / Pdl(py^ G r J # J € J(Q). 

ig ■ Jgi 

[)mn:i$i Cjfc) mcHider^^bar bzgl: Gegeben (0q,<?q) definiere 

KmAM^m VGeGr (5 1) 

Dieser Fall tritt ziM Beispiel ein. wenn Q dmempmschen Verteilungen mihalt, da 
jede empifische Verteilung (bis dvj die Kwunfcf^Hfez/tiri^h/ eine Mischung anderer 
empirischer Verteilungen ist l[m dieses Pwblem zu vermeiden, kann 3(T 9 ) durch Sl 9 
ersetzt wjerdem 

Beispiel 5*2 (Positive Masse auf kolHnearea Werin G Verteilungen 

enthalt, unier denen eine p — l-dimensionale Hijperebene 

H a := {x- £W:z?a = Q, a€ ffi p+l \{0}} 

eine positive Wahrscheinlichkeit hat, isi Cn, im aligemeinen nicht identifizierbar bzgl 
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Fur x~ 6 H a gilt = x'{0 + a), /m Fallp = 1 zeigt Abbilduiig 4 diese Situation. 
Sei nunGi € £, u?o6ei" 

£ := Gi(/Q > 0, G H (B) :- Gx(B|tf a jVB € W, 
Gi :— xz|(C?i — (;Gjr) (mufi fur dieses Gegenbeispiel € 9 sein), 

y) = 5^ / 1(< < ?)*o,^(y - t^)dG 1 (i)+ 
+§Ef J \{v<m*Ay. - +<*))dG 2 (t) = 
= 5^/i(t< #o !? »(y - W(i -i)G2 + 
fgf / 1(<; <z)*o;o> (y + <*))d [^((?x - (|) = 

= ^ll(t<x)^^-mdG 2 (t)-r 
+5^ /lf< < xj#o^:(?/.- «))dGi(i) = F,-(x, y), da 
(l/-^) = (y-i'(/3 + a))[^]. 

t^ei%rAm- ts^ J J fiiiyj, Daherisi Go, nicht ideniifizierbar bzgl yv»,*«n<f nicht 
* einmal teiheise identifizierbar fcp »~«6"i 'ik auck die Anteile der Mischungskompo- 
nenten sind. nicht ideniifizierbar. 





y 




Ho, (aus Beispier^S^ 
zj (aus Beispiel 5.3) 



Abbildung 4: Clusterzuordnung niclit eindeutig 

In Modell 2 sind aus ahnlichen Griiriden die Clusterzuordnurigeri der Punkte nicht iden- 
tifizierbar: 

Beispiel 5,3 (Clusterzuordnung in Modell 2) Cu p ist nicht identifizierbar bzgl ^p": 
Sei j € /, Wahle nun a 6 \ {0} so, daflxfa = 0. Sei 

7 (/) = {(^(T 2 ).(/3 + a^ 2 )}. 

Dann ist F Zjn und damit die gemeinsame Verteilung der (y,),<=/ gleich fur 7(7) = (/?, cr 2 ) 
una* 7O) = (^ + tt,<7 2 ). 
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In den folgenden Beispielen sind auch die Regfessionsparameter nicht mehr identifizier- 
bar. Natiiriich ist 

m o 3 ) € : dim«x f : 7 (0 = (ft « 2 )}>=P+1 

notwendige Bedingung fiir Identifizierbarkeit in Modell 2. Analog mufi auch iii Modell 1 
und Modell 3 die Identifizierbarkeit des Regressionsparameters jedes einzelnen Clusters 
gesichert wcrden. Es muB also ausgeschlossen werden, dafi die Regressdren x~ fur einen 
einzelnen Cluster auf einer, gemeinsamen p — 1-dimensionalen Hyperebene des IR P liegen. 
Das reicht jedbcli nicht aus. Auch falls die Anzahl der p-l-dirnensionalen Hyperebenen, 
die man benotigt, urn die Regressorenpunkte fiir jeden einzelnen Cluster abzudecken, 
beliebig hoch ist, lassea sich noch Beispiele fur Nicht-Identifizierbarkeit kpnstruieren. 

Beispiel 5.4 (Zu viele Cluster: Gitterstruktur) Sei p ■. = 1, / = {1 n}, n = 
$ 2 , s := |7(/)|, *i = (i. l j. Entsprecheiide Sittiationen sind auch for andere. nicht aquidi- 
tiante RegressorenkondeUaHonen konstruierbar. Es gefyen die Bezeichnungen aus Modell 
2. bzw. Beispiel 4 JO* Nun sei 

7(i) = (0: js\ a 2 ) % € {(j - l)s + I, . . . ,/s}, f= 1, . . . , $, 

Steigung^qrarneteT; 0, i4c^e7io65<Ani<i /a, tmd 

7(i) « - 1, ? 2 ) :*i€ {(* - l)s + 3 : fc 4 € {L *}}, j = 1, . , „ * 

Offenbar isi 7 7^,1 7, ;4//e s e l sind wie folgp eindeutig darstellbar: i = (fc — l)s + f, fc <E 
{1 . . r s}, i ig {1. . * .. , $}. Damit isi 

Atea ist die gemeimam& VerteUung der (l/ijte/ Jut 7 und f gleich und also Gn#. nicht 
ieilwet$$: idmtifizierbar bzgll „~ p i*.. 




Abbildung 5: Gitterstruktur 

Fur p > 1 konnen anstatt eines einzelnen beliebig viele Punkte auf einer ge- 
meinsamen p — l-dimensionalen Hyperebene gewatrit werden f so dafi man Beispiele mit 
$. Clustern und beliebig mehr als s 2 Punkten bekommt 
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In Model! 1 ist jede; Mischungskomponente in der Verteilung von fur jeden Repressor 
xi yertreteri. Das macht die Konstruktion yon Gegenbeispielen etwas schwieriger. Die, 
Anzahl der Regressoren n ist hier gleichzeitig die Anzahl der Punkte pro Mischungs- 
komponente. Das heifit, dafi eine vergleichbare Situation mit \S{J)\ statt wie oben s 2 
Regressoren koristruiert werden mufi. 

Beispiel 5.5 (Regressionsparameter nicbt identifizierbar in Modell 1) Sei p = 

1, n — 3, \S( J)\ = 3. Beisptele frtii grofieren h, \S(J)\ sind moglith, aber viel kbrnpli- 
zierter m konstmieren. Fur p > I lassen sich wie im vqrigen Beispiel die- Regressoren 
durch beliebig viele Punkte auf pdrallelen p - 1-dimensionaleri Hypere benen ersetzeri. 
Set Xi = {0, l)\xz ~ (1,1)^3 = (2>1)» cr 2 > 0 Jest Sei J definiert gemdfi 

j = i t 2i 3 : <r| - a 2 , J3 X - { j, 0}, § 2 = (0, 1), ft = (0, 2),. 
S(J) := {(feaf) : j — iXn, J ma])} ;= § 

und J rftf J gemdfi 

i = 1, 2,3 : a| = ^, ft = (-±, 2), &= (1, 1), ft = (1,0), 
S(J) := {(&*|) : i = Xi -Mh <j)} §• 

Dann wf die $^«rw«n# Vfer!5«fonj 4er (jA)je{i,2,3j: in beiden Fallen das unabhahgitje 
Prodiikt der Verieilwgen 

F fl = + W(\-j) + 3^(2,^)' 

4is"o ist Oj'(t/) tfc' di&em; Falinicht identifizferbar ftspf.- „.~/ * 



Abbildung6: Modell 1 nicht identifizierbar 

Das Gegenbeispiel 5.4 aus Modell 2 lafit sich durch Verwendung empirischer Verteilungen 
auf Modell 3 ubertragen. Allgemein kann man eine Situation mit festeri Regressoren 
auch in der Terminologie.von Modell 3 ausdriicken, wenn man die empirische Verteilung 
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der Regressoren benutzt Die folgende Bemerkung und die Bemerkung 610 zeigen, wie 
sich in diesem Fall die identifikatiorisaussagen ubertrageii. Mit etwas hoherem Aufwand 
lassen sich fur p > 1 aus Beispiel 5.4 audi Beispiele fur Model! 3 gewinnen, bei denen 
sich die Regriessorenyerteilung auf die entsprechenden p - 1-dimensionalen Hyperebenen 
konzentriert, aber keine ; enipirische Verteilung ist. Das werde ich aber hier hicht welter 
ausfuhren. 

Die folgende Bemerkung ist destruktiv fonnuliert („ Aus Nichtidentifizierbarkeit in 
Model! 2 fclgt Nichtidentifizierba Model! 3" J, \yeil di<% teilweise Identifiziertia^ 

keitsaussage, die man fiir Mbdell 2 direkt erhalt (Satz 6.4) v starker ist als das, was sich 
aus Bemerkung 5.6 gewinnen liefie. 

Die iimgekehrte Inoplikatioa lifit sich mit vertretbarein Aufwand nicht zeigen, da 
sich eine Verteilung Fj wie in Mbdell: 3 wegen der Mischkompo^ q im 

allgemeinen nicht einfach als FixedrPartitioE-Verteilung gemafi Mpdell 2 aufechreiben 
lafit. 

Bemerkung 5.6 WeM S so g^wahlt isti dafi mcht tettoew 

„~2i& wi; :&t -^h;Cti 9 . nicht teilweise identifizierbar bzgl. 7 ,^ $ x\sofern 

\I\ = n < bo, 

Q D (Ee^ : 'fi 2 0 Vi € /i'Ei= l] , 

Beweis: Sei Cn p nicht teilweise identifizierbar bzgl. »~ P i" und 

" WP$$l M^^--^^^^ wfe-fii Mbdell^ Mit = {(0i*.&l)\ (^>',fff)}> sei nun 
weiterhin 

% £ —A* 

J G ti, definiert dutch S(J) = {(0j,aj, G } ) :j = 1,.:.,$}, 

und entsprechend I, %6y , Gj, n ; -, J. (5.3) impliziert 5 (J) # 5(J) und damit J fa&Ji Fj 
und seien definiert wie in Mbdell 3. Es wird nun Fj — Fj gezeigt, was bedeutet, dafi 
Cn, nicht teilweise identifizierbar bzgl. „~„i" ist. Fur Verteilungen F auf SP* 2 bezeichne 
F x die Verteilung der ersten p ,+ 1 Komponenten (Regressorenvektor) und F*'' A ' die 
bedingte Verteilung der p + 2. Kbmponente (abhangige; Variable) uhter den ersten p + 1 
Komponenten. Ich zeige Ff = Ff und Fp x = Fj' 1 *. Zunachst gilt S{F?) = S(Ff ) = 
{x { : i € /} und fiir alle i € /: 



(5.31 
(5-4) 
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(5.4) folgt: 



zu zeigen, wird fiir 



i 6 /, B e IB folgende Gleichung bendtigt, die aus 





Daher gilt mit i e J: 





also Fj ^ Fj. 

6 Identifizierbarkeitsresultate 

In diesem Abschnitt warden hinreichende Bedingungen fiir Identifkierbarkeit und teilr 
weise Identifizierbarkeit ailer drei Modelle gegebeh. Dabei ist folgende Voraussetzung 
immer wesentlich: Die Anzahl der Mischungskomponenten muB kleiner sein als die An- 
zahl der p - 1-dimensionalen Hyperebeneri, die man beaotigt, uin die Regressoren, die 
zu einer einzelnen Mischungskomponente; (Cluster) gehSren, zu uberdecken, 

Bemerkung 6.1 Von der Normalyerteilungsyora den Storterm wird 

kief nur die Identxfxzierbarkeii der Familie, der endlicken wivariaten Norrnal(a, o 2 )- 
Verteilungsfnischuhgen bzgl ..^t* defihferi in Berherkvng 4.6 rnit (a, a 2 ) € T = M x, 
JRj benotigt. Ein einfacher Beweis d<xfur findet sich in Titterington, Smith und Makov 
[19851 ft 38. 

Aufier fiir Satz 6. 7, wo mehrdimensionale Normalverteilungen gebraucht werden, wiirden, 
daher folgende Voraussetzungen dusreichen: C(ui) = H$, wobei E(H$) = 0, H$ G Jr :==: 
{H 6 : 0. G T} C V u Cj( T ) identifizierbar bzgl „~ T *, 



He(*-t) € jF V9 G T,i;G iR, 



d A Lokationsmischungen der Hq mussen identifizierbar sein. 
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Satz 6.2 (Model!' 1) Cj^ Tf ) istidentifizierbar bzgi v ~j" foils an J{T f ) die zusatzli- 
che Einschrankung \S{J)\ < h gernacht wird, wobei 

h :== min |{xr : i el} C (j # : Hi e % J:. 



Beweis: 

F XlJ ~F T j ^J = T VjJ e J(Tf) 

ist klar, es bleibt nur „=> a (d.h. teilweise identifizierbarkeit) zu zeigen. Beweis durch 
Widerspruch: Es sei 

urid ohrie- Einschrankung 

W)\ > \S(J)l J{0u <$} f J{(0lA)h (6-1) 
Angenpmmen, es gabe nun (0, a 2 ) € 5( J), so dafi 

Vi €/ 30,a 2 ) €$(J): 0*0, x' i /3 = x\0.. 

Danri folgte 

U {x~ : = D {x; : i € /} => ft < |S(J)| 

im Widerspruch zu |S(J)| < ft. Also 

V0,o 2 ) G S(J) 3i(0) e I VQ?,* 2 ) €S(«7) : 

x' iW i3 = x' m 0*0=0. (6-2) 

Sei nun * := x,-^,). 
Aus = F^j folgt 

= F tJ = J^^^mo 2 ), 

Daraus folgt, weil endliche Normalverteilungsniischurigen identifizierbar sind, 

(i'A,cr?) e{(t'/3,a 2 ) ;0,d 2 )eS(J)} 
und wegeri der Definition von i mit (6.2): 

(AX).6 5(J). (6.3) 
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Die Definition von t bringt weiterhin 

VS(J) B 0, 0) * (ft, o\) : (t'fo 2 ) # (i'ft, a?), (6,4) 
so daB. durch Identifikation der Normalverteilungsmischung Fj,jr = F t j, 

JftM)} = J{0?,a 2 ) : (t'/?,<r 2 ) = (tfft,* 2 )} = 

Daraus folgt. /{(ft,<r?)} > J{(A,a 2 )}, dean nach (6.1) ist J{(/?i,cr 2 )} # /{(ft, a 2 )}. 
Daher 

lS{n : 3{(kA)*{Puo\)-. m^ = mM)- (6-5) 
Anwendung derselben Argumentation auf x^,) bringt analog zu (6.3): 

Das ist ein Widersprudi zu (6.4) und (6.5). Also folgt J= J. 



Korollar 6.3 (Model! 1, keine Einschrankungen filr J) Cj(t { ) ist identifizterbar 
bzgl. „~ f a falls ' 

m 

Vm € M> A = U H { : {x7 i i € 7} £ A (6.6) 
fur beliebigep - 1-dimensionale Hyperebenen H* £ 7^,1 = L . . . , m. 



Beweis: (6.6) # oo = /i (definiert in Satz 6.2.) 



Satz 6,4 (Modell 2) Cn p tirf teilwetse identifizierbar bzgl „~ p i u falls an Q p folgende 
zusdtzliche Emschrantong ge < min /i(/3,a 2 ), wofici 



Beweis: Aiigendmmen, <7n p sei ntcht teilweise identifizierbar bzgl. >;~ p i u . Dann gibt es 

7 7 6 pl 7eamifcF^ = ^, 
wobei ohne Einschrankung | 7 (/) | > |7(/)|> (&, *g) 7(/), (6.7) 

Ich beweise weiter unten 

V(/3, a 2 ) € 7 (/) : dim(X^ x {1}) < p + 1, (6.8) 
wobei X 0 f 7) := K : i € J,7(i) = = 0M 2 )}.,Das heifit: 

V(Aa 2 )G 7 (/) %^Hp: C tf^,. 
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Daraus fdlgt 

h(fa<d)<Wj\<\y(I)\ 
un Widerspruch zu |7(/)| < min{/i(#, a 2 )}. Dalier 

also teilweise Identifizierbarkeit von Ca f bzgl. „~ p i". 
Beweis von (6.8): Es gilt 

Daraus ergibt sich 

Va& €%)•: a^/9b = o| =a ? , also 

Oder dira(JV ( ^ 3) x {1}) < p-f i, 

wobei ersteres in (6.7) ausgescblosseh wurde. 



Korollar 6.5 (Mqdiell 2, keine Einschrankungen fur |) ! 

Cn p ist teiltaeise ideiiiifizierbar bzgl ,,^pt" tmter der zusalzUchen EinstMrahkurig an 
%: 

m 

Vm €1N, (0, «*)*€>(/), A = Q if, : 
/fir beKeBge "p ■•— l-c!tfecn5«oriaie Hypewbmeii Hi € W^ i = 1, . . . , rri. 



Beweis: (6.9) <^oo - mia h\0, a^} (defimert in Satz 6,4). 

Bemerkung 6*6 In Satz 6.2 MdK^ anhand des theoretischen Designs 

{xi n£ 1} b^hnet werden, Man braucht aka nkhUuberMe unbekannte^M 
meter zu wisseri, iitn eirie Identifinerbarkeitsd bas'ist. in: Sate, 6;fcwid. 

Korollar 6.5 nicht moglich, derm fc($o?) hangt twn-f% dttrcA "d^ « n ^^w^ .^^r^ifrtfif. 
der Punkte zu den Clvstern ab. 



Satz 6.7 (Modeli 3: Normalverteilte Regressoren) Cj(t 9 ) ist unter der zusaizli- 
chen Einschrankung o 2 > 0 an T, ideintifizierbar bzgl »~r t > falls 

g^Maniaem^VeSp}, 

wobei S p die Menge der symmetrischen positm definiten reellwertigen p x p-Afatritzen 
bezeichne. 
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Beweis: Es wird unten gezeigt, daB es eine bijektive Beziehung zwischen den Parameterri 
einer p + l~yariateii Normal verteiluug und 9 £ T S aus Model] 3 gibt, Damit ist Mpdell 3 
eine Umparainetrisiening einer ehdlichen Mischurig von p + 1-variaten Normalverteiluri- 
gen. Solche; ifoschungen sind identifizierbar (Yakowitz and Spragins (1968)). 
G ist festgelegt durch a und 33,. F(*; 9) also durch 

wobei (si0ij±i i:ttA p := 35. Gesucht ist also eine by^ xIRxSp h-» 

IR p+l x S p ^ M T{9) auf rj abbifiet, so daB F(f^$j - 4^. 

F(* r 0 ) ■1st als Verteiliing einer lineareri Funktion der ribrmaiyerteilten Zufallsvariablen 
aT und w eine p + Irvariate Normaiverteiiung. Sei also T{9) wie;oben gegeben, a := $"\ 
also # = (a'j ^i)^ Die ersten p Komponehten sind die Parameter fur die Regressoren 
. .,x p ). (6 v r) =: (fril^^^^^+i) ergibt sich dann we folgt: 

$x b < * - Sir = a, 6p4i = Ey : =cta + P P +n 

Qij)ij F h... > p ~ Gov ir: == 
i =. I,-. ..,jp : tp+i^ = = Cov^y == J^kjft 
tp4-i,p+i = Var y = V2a + <t£. 

Diese Abblldungj 1st by ektiy, da sich bei gegebenem aus den pbigen Gleichungen 
folgendermaBen ^ definieren laBt (wieder sei a == ^): 

a!= (6i ? v . . , E = (%)t,i=i,.^ ? (6.10) 

/ '.Mr A 



(6,11) 



Dabei^ist j3 eiMMtig defihifert^ da ^ ^ J j mit S inveftierbar isty und es ist a 2 > 0, 
da fur £(a^ $)' = vV^.r) mit dgii tibigen Bezwchnungen 

0 < V^r(a # V) = Var y + Var(a-x) — 2 Cov(y v g'£) = 
== ^ + i;p4i + a'Sd -2a' . . . = , f rH*+V~ a'Ea- a 2 , 

V *P0>4i / 

dehn wegen a = 0" und (6.11); ist 



Var(a'x) = q'Sq = cc 



(Man beachte; daB Q keine k endlichen Mischuhgen seiner Elemente mit mehrals einer 
Komponente enthalt. Daher taucht das Problem aus Beispiel 5.1 nicht auf.) 



fit IDBNTIFIZIERBARKEITSRESULTATE 



4$: 



Satz 6.8 (Modeil 3: -Kerne Masse auf p~ 


- l-dimensionalen Hyperebenen) 


Cn 9 ist identifizierbar bzgl " falls 






= 0 VH e Hp], 



Beweis: Der Beweis benotigt folgendes Resultat: Wenn P<*,v) _ p* g> pP'PO, pi*z) 
analog, p(VI<Y=*) und pW x - x ) definiert auf c-Algebren B, wobei 

BS abzahlbar: o{C) — B\ 

dann 

p(m = pim &3A C {x t:0T#-i = : P jY (/i) = I.: (G.12) 

Beweis: Ganssler / Stute (1977), S. 197. 
Nun seien s, := # := 15(7)1,. 

S(J) =: {(& *£&),* = 1, . ..,,}, e { :.= 

S(j) =: {(A,a?,G,),i = 1,, . .;, $}, := J{(&, ^, <?,)}. 

Mit diesen Bezeichnungen ist 

F J = i;e/F(.,/3 i ,<r?,Gr i ), 

F/ wie in Modell 3, entsprfcchend Fp Naturlich gilt wieder 

Fj~Fj^J = j VJ,J eft,, 

so dafi riur 

Fj~Fj=zJ = J (6^13) 
(d.h. teihveise Identifizierbarkeit) zu zeigen ist, 

Ubersicht: Die bedingten Verteilungen fiir y bei gegebenem a; sind eindimensionale 
Nonnalverteilungen und damit identifizierbar. Insbesondere sind also die (x'ft-, <of) identi- 
fizierbar; damit auch durch Wahl eiher geeigpeten Menge M von Regressbren die ((3i,crf) } 
also 5(7) = S(J). Schliefilich identifiziert man die ;c t - durch Integration, der Anteile der 
Mischungskomponehteri im bedingten Fall Qber x und kann damit (nach entsprechehder 
IJmnumerierung) auch noch <?,= i : = 1, . . . , s. zeigen, also J = J. 

Vorbereitung; Definiere 

t=i i=si 
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wobei ich in diesem Bewjeis ausnahmsweise die Zufallsvariablen der Regressoren X,X 
(jR^wertig, d.h. die p + I. Komponehte 1 wird nicht als Bestandteil der Zufallsvariable 
interpretiert) und abhangigen Variablen F bzw. Y mit GroCbuchstaben bezeichne und 
die von ihnen angenommenen.Werte mit Kleinbuchstaben, wobei aber wie gewohnt x € 
JR P x.{l} sei. Damit 

m e IB* ft eJB x F(x*)(Bix B 2 ) t M^^^dG^T) = 
f 9 

Analog zu (6.14) berechnet man 



Sei nun 



M := {aT : Y? ? A; € {1, .,..«},/, m e {1,...,$} I 

2% = 3? fa 4 ft- fit* <§i = Sl±3i =A 

- W\ U {aT :: x% = x%}\J 

M ist also Complement eiher endlichen Vereinigung von Elementen aits Hp, Daher fplgt 
aus der Voraussetzurig an Q: 

F* = Y i e i a i .=> F*{M) ml. 
t=i 

Fur i" 6 M sind alle (x'^af), i = l,....s, paarweise verschieden, da alle (A, of), 
i = 1,...,$ wegen J € fl 4 aus Beispiel 4.11 paarweise verschieden sind. 
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Identification der (#,of ): Sei nun fur x~ € M eine empirische Verteilung 7* auf 
M x Ht$ definiert durcli 

Mi^M-= ^^-y i-h ->s> (6-16) 
5(4) = cr$hi = h < • • i*. > 0}, 

so dafi mit (6.14) 

und sei J x definiert analog zu (6.16), so daB mit (6,15) 

F M**-\ M [ M a dJ x (8). 

Sei nun Fj = Fj, also insBesondere F A * = F*-. Dann impliziert (6.12) 

3N C M, F*(iV) = F X (N) - 1 : aT € iV =*■ F y l A ' =I ~ = F*l*=*~, 

so dafi J, = Ji, (6.17) 

da endliclie Normalverteilungsmischungen identifizierbar bzgl. ,„~t" nach Beraerkung 6.1 , 
sind. Weiterhin: 

yi € {i,. ,, €{i,...,s} : = r=f Oi(iV) -Cj(N) = i « 

=^3x(t)€ Af,x(j)e iV: <&•(*«-) > 0, &(*(>)-)> 0. (6.18) 
Fiir gegebenes i € {1, s} folgt aus (6.17), 

3i €{!,... ,3) : fcjf # = x(|)%v of = 4 
Aus der Definition yoni M ^i^ibtjsich dann 

fep{|&^;i£{iv i}}. 

Dasselbe Argument kann auf x(j) Vj G {1, ... . . 1} angewendet werden, so daB 

(^v#lfe^): i € {!,.. ,,5}}. 

Zusammen: 

{(%*?) :ie{l,...,5}} = {(4-,a?) : j € {1,,. .,«}}■ 

Aufgrund der Definition voii f2 f aus Beispiel 4.11 sind sowbhl die tfiuof) : i € {1, . . . r s} r 
als auch die (ffjydrj) : j € {!,., . vi S} paarweise, verschieden, so dafi sich nun s = S ergibt 
und man ohne Einschrankung (ft, of) = t = 1, . . . , a annehmen kann. 

Identifikation von , e<: Weiterhin gibt es fur i = 1. . . M s eindeutige Gf und e t - = 
^{(A^?,Gi)}, G, und e t = J{(/l^,Gi)} mit 

(ft,<T?,Gi) 6S(J), (ft,af ? G,)e5(i), 
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Definiere fur x € N, i = 1, . . . , s: 

:= cr?)}, &(*) :« Wft, of.)}- 

Aus (6.17) ergibt sich dann 

ViP€JV:C 4 (i)=|i(x). 
Weil F x (iV) = 1 und daher Vi = : XvStk")^^") = *> erhalten wir mit (6.16) 

c« - / t,-5i(s~)dM(^),= f Si(x)'£e j g j (x-)dix(x-) = 

= / z i (x)dF x (x-)= I k*w*(* r i-& 

Zuletzt, fib'* € AT : = = 

4 x=i. 



Satz 6;9 (Teilweise Identifizierbarkeit von Modell 3) Cq, w< teilweise identifi- 
zierbar $zgL n <* 9 i a faUs? 

m 

9 C ^ mii VG e frni 6 W, A = Q JT« : G(A) < 1 (6.19) 
fiir beliebigep — 1-dimensionale Hyperebenen Hi € 7i p ,i = 1, . . , ,m. 



Beweis: Es gelten die Bezeiehriungen aus dem Beweis von Satz 6.8. {6.14) und (6.15) 
benotigen keine Voranssetzung an Q und gelten daher auch hier. Es wird . analog zum 
Beweis- von Satz 6.8 ycrgegangen. 
Sei wieder 

M := {aT : Vj, k € {1, . . .:,5}. f, m € {ly ; . , s} : 

F A ' ist eine endliche Konvexkombination von Elementen von & und erfiillt daher (6.19). 
Fur M, das Komplemerit eiher endlicheri Vereinigurig von Elementen von ftp, gilt daher 
F X (M)>% 

Fiir x~ € M sind alle (a;'#,<r|), i = 1, . . . , 5, paarweise verschieden, da alle (0u&f) } 
i = 1, ... , 5 wegen j € fi 5 aus Beispiel 4.11 paarweise verschieden sind. Fiir x € M seien 
nun Ji bzw. J x wieder geraafi (6.16) defiriiert, also mit (6.14) 



sowie 
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Sei nun Fj = Fj, also insbesondere F x = F* ... Dann impliziert (612) 

BN C M, F*(N) = F X (N) = F*(M) > 0 : aT € Af. F r l*=*~ = F*!*~ _ ,.. 

sodafi ^ = 4, (6.20) 

da endliche Normalvcrteilungsraischungen identiflzierbar bzgl. „~t" nach Bemerkung 6.1 
sirid. Weiterhiri: 

Vi €{!,, . , s}i j € {1,, . . , s} : Gi, Gj € 
.=* 0< Gl(M) = Gi(N), 0 < Gj(M) - dj(AT) 
=*?' 3x(i) G iV, £(j) £ AT : SiN*)~) > % 9&ti)~) >0, 

Fiir gegebenes i € {1, . . folgt aus (6.20) 
Mit der Definition von M ergibt sich 

Dasselbe Argument kann auf x(j) V>' € {1. . . . , s} angewendet werden. so da8 

(&,aj)€ {(&,*,?):*€ {l,...,s}}. 

Zusammen: 

{(Pu otX; i e {1, . ., a $}} = {(& 8j) : ; i € {1,. . ■ , 5}}, 
was bereits «/W fii J bedeutet. 

Bemerkung 6,10 Anch zwischen Modell i und Modetl 3 b^eM;eyn Zusammmhang 
Vet yerwmdmg^ ^ VeHeiBmgpn, so daft sich aus Satz 6. 2 bei eridlickerii I ein 

Jtfenii^erto „<yf a aus Bmi^4 9i^ aquivai^Mr Identifi- 

zierbarkeit V9^ GjiXs) ^^' »~tJ Beispiel 4 J1, fflk 

fiir betiebige feste£ii> 0 mit -E^/^ = 1- Q enthalt flier dls&nurein Element^ f2^ = jftsi 
und „~ 9 *= 9 ^"l 

Beweis: Sei zuerst Cq s identiflzierbar bzgL „~i", Defihiere J, J € J(T/) r K,K € ft, 
fiir gegebene a\) h i = 1, , , s, (ft, of) j * = 1, . . . , 5 gemafi 

1=1 »=1 
5 ^ B 

K := ■ 5Z € < W?,c)» # : = £ 
t=i * i=i 
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Offenbar gilt 

J = J K — K. (6.21) 
Sei nun Fj = Fj vorausgesetzt. Das soli Equivalent zu J = J sein. Es gilt 

Fj = Fj*® (7 Mw^dWa 2 )) = <g>(7 A^o^/J,* 2 )) O 
JT i JT f 

**F K = F k . (6.22) 

Daraus folgt JRT — if aiifgrund der Identifizierbarkeit yon Cn,, Mit (6.21) ergibt sich nun 
die Identifmerbarkeit yon Cj.(T f ) bzgL ^~/ w . 

Sei niin umgekehrt Cj( Tf ) identifizierbar bzgl. ,,rv/* und Jf = K vorausgesetzt. Das ist 
Equivalent zu J ~ J wd weiter wegen der Identifizierbarkeit von Cj{T f ) M.Fj> F/..- Von 
da a.n gilt wieder die Aquivafenzumformung (6.22), also insgesamt Fjc -^.Fg-M K ~ K 
und Identifizierbarkeit von Cq 9 bzgL rJ /^#.; 
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Teil II 

Fixpunkt cluster 

7 Einfuhrung: Fixpunktcluster 

7.1 Cluster und Ausreifier: Die allgemeine Fixpunktcluster-Idee 

Die Idee der Fixpunktcluster wurde bereits in Abschnitt 3.5.1 kurz angedeiitet. In die- 
sem Abschnitt werde ich sie allgemein. dJi. nicht an das RegressionsrProblem gebunden, 
erlautenL AhsdiauHch besteht ein Cluster von Daten in eiriem Datensatz aus Punkten, 
die in irgendeiner Weise zusammengehqren. wahrend die anderen Punkte nicht dazu- 
gehoren; ^Zusammengehoren-' heifit meistens „nahe beieinanderliegen". Das ist aber zum 
Beispiel ira Regressionsfall nicht unbedingt so ? wie in der Einleitung schon arigesprochen 
wurde. Ein Fixpunktcluster (FPC) soli eine Menge yon Punkten sem, spdafi die anderen 
Punkte des Datensatzes bezogen auf die Punkte des FPC Ausreifier sindy von den Punk- 
ten des FPC jedoch keiner. In diesem Sinne gehoren die Punkte des FPC zusamraen, die 
anderen Ptinkte gehoren nicht dazu. Dieses Konzept wird iin folgenden prazisiert. 

Vor dem Hint^grund statilstischer MpdelibiWung M e fe Ausreiifer bezogen auf erne 
Verteilung ein Punkt. der nicht zur Verteiliing pafit. Zum Beispiel konnte ein Datensatz 
modelliert werden durch erne Verteilung 

H = (1 - cjflb + |> e > o, W:4 h q . Wl 

Iii der Literature heifit ein solches Modell h&ufig ^contamination model" (Veranreint- 
gungsmodell). Die durch H* erzeugten Punkte waren dann Ausreifier beziiglich Hq. In 
solchen Situationen k&rin zum Beispiel getestet werden, ob einzelne Punkte eines: Da- 
tensatzes von H* erzeugt warden, Dieser und andere Ansatze zur Ausreifiererkennung 
werden zum Beispiel in Barnett und Lewis (1984); diskutiert, Splche Verfahren benoti- 
geh aber imraer eine genauere Spezifitoitibn von H% Wie mit Punkten verfahreii wird, 
die weder so aussehen, als seien sie von Hq, npcli von W erzeugt, ist unklar. Allgemein 
ist eiiie Ausreifieridentifikation nach dieseni Ansatz nur moglich, wenn H* Punkte gene- 
riertv die sich mit grofier Wahrscheiniichkeit deutlich von durch H$ erzeugten Punkten 
unterscheiden. 

Modelle der Form (7.1) sind audi in der robusten Statistik gebrauchlich, Huber (1981) 
leitet zum Beispiel Mirimax-Schatzer f ur die Parameter yon Hq her. Diese Schatzer sollen , 
fur gegebenes e im „schlimmsten Fall" von H m die kleinstmogliche Verzerrung bzw. Vari- 
anz haben. Hfiufig. liefern robuste Schatzverfahren nebenbei eine Ausreiflerklassifikation, 
siehe dazu Abschnitt 3.5.1. 

Davies und Gather (1989) machen einen alternativen Ansatz zur Beschreibung von 
Ausreifiern; Sie bescli&ftigen sich riur mit dein Fall des eihdimensionalen Lokationspro- 
blems mit stetigen Verteilungen 9 . Ich fprmuliere hier eine Interpretation ihres Ansatzes 
fur allgemeinere Vertieilungsklassen. 

9 Die verSffentiichte und tlberarbeitete Version ihres Papiers (Davies und Gather (1993)) beschratikt , 
sich sogar auf eindimensidnale Normalverteilungen. 
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Em Punkt wird bei Davies und Gather ^Ausreifier" in Bezug auf eine Verteilung; 
genannt. wenri er sich in einem geeignet definierten Bereich befindet, der unter dieser 
Verteilung eine sehr fcleine Wahrscheinlichkeit hat. Sei Pq eine Menge von Verteilungen 
auf (M\B). Nach der Terminologie von Davies und Gather ist eine a-Ausreifierregion zu 
P 6 Po einfach eine Menge A a € B mit P^) = a, wobei q sehr klein sein soil. Diese 
Menge soil weiterhin die Vorstellung widerspiegelri, dafi ihre Eleiriente Ausreifier sind, 
sie sollte also die Bereiche enthalten. in denen P am wenigsten „dicht u ist. Falls P eine 
unimbdale Lebesgue-Dichte jp hat, geben Davies und Gather (1989) 

A a :~ A(mOx{c : P{A(c) < a}}) mit A(c) ;= {x : p(x) < c] 

an. Allgeriieiriet: 



Definition 7,1 (Ausreifierregion) Gegeben set eine Abbildung 

A : [0, 1] x Po B y (<*, P) ^ A(a, P) mit P( A(a, P)) < a. 
Dann heifit das Bild vori P € Vq unter A(a;. *) eine a- Ausreifierregion 10 zii P. 



Die Definition der Abbildung A harigt von der ahschaulichen Vorstellung ab, die man 
vpm Begriff ,, Ausreifier" hat. 

Urn eirien Ausreifier in Bezug auf eihen Daterisatz Z = (z u ...,z n y € M n 7 n € 
W zu ermitteln. wird nun die Ausreifierregion anhand des Datensatzes geschatzt. Die 
Schatzung einer Ausreifierregion zu Z ist also >l n (Z), wobei A n : M n h> B. 



Definition 7.2 (Ausreifleridehtifizieref) Sei A* : M n B Schatzung etner Aus- 
reifierregion. Dann ist 

In l M* {0,1}^ 

Z h» / n (Z] : M »-* {0, 1}, m h4 l(m € 4{Z)) 

ein Ausreifieridentifizierer; dX m € M wird al$, Ausreifier identifiziert, wenn 
/ n [Z](m)>L 

Zu einer gegebenen Iridikatorfunktion h kann umgekehrt eine Ausreifierregionsschatzung 

A n ,: M n ^ (0, 1} A/ , Z ^ {m € M : / n [Z](m) = 1} 

definiert werden. Bei Davies und Gather (1989) ist ein Ausreifieridentifizierer zusatzlich 
abhangig von a und wird fur a € (0,1) definiert, d.h. ein Identifizierer dbrt entspricht 
einer Familie von Identifizierern bei mir. Fiir die Zwecke der Clusteranalyse wird es 

10 Davies und Gather geben im stetigen Lokationsfail die Bedingung P(A(a t P)) = a statt „<". Ich 
benutze hier aber eine allgemeinere Fbrmulierung, urn audi unstetige Verteilungen mit beliebigem a 
behandeln zu kdnnen. 
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reichen, eihen Identifizierer fur ein bestimmtes, fest vorgegebenes a zu haben. Daher 
hetreibe ich hier weniger Aufwand. Weiterhih werden bei Davies und Gather nur die 
Punkte aus Z und nicht alle Punkte aus M klassifiziert 

Wana kann A* als sinnvolle Schatzung fiir eine Ausreifierregion betrachtet werden? 
Davies und Gather geben die Forderung 

VP EM : P n iMZ) ^ P )\ = 1 - <*P (7.2) 

an 11 , woba orb klein sein soil. Sie betraclaten also die Eblge (A n ) als Folge voii Schatzunigen 
vori AusreiBerregionen mit uMereehiedlichem a n . Die Wahrscheiiilichkeit, dafi Punkte, 
dievmcht in A{a^ 7 P) liegen. als Ausreifier klassifiziert werden, soli dann klein sein. Fiir 
die Wahl der; wird 

VP e Vo : P n ({Z : {z u . . ; , C M \ A{a n , P)}) I 1 - % 

O a n = l-(i-a 0 )* (7.3) 

vorgesclilageh. Das bedeutet: Die Wahrscheinlichkeit, daB kein Punkt eines beobachteten 
Datensatzes in der Ausreifierregion ist, wenn der Datensatz eine uriaMangig identisch 
verteilte Stichprobe aus P ist , soil mindestens 1 - <*$;, (sehr grofi) sein. Umgekehrt wird 
also, wenn ein Punkt der Stichprobe als Ausreifier identifiziert wird. der Schlufi nahe- 
liegen, difeser Punkt sei nicht von P erzeugt worden. t)as ist der Zusammenhang ziim 
Ansatz mit Modellen der Form (7.1). Ein guter Identifizierer nach der Philosophie von 
0ayies uM Gather ist also nicht einer, der eine Ausreifierregion gut approximigrt, wenn 
alle Punkte nach P erzeugt wurden. Stattdessen geht es darum, in Ariwesenbeit von 
Punkten aus P und extremen anderen Punkten, die Punkte, die nach P erzeugt wurden, 
gut von den anderen trennen zu kSnnen. 

Ich werde mit den obigen Defmitiorien weito den Fbrderun- 

gen (7^2) und (7;3))vdenn fiir die Idee der Fixpunktcluster ist eine Ausreiiteridentifikatipii 
yonnSten, die vpn ednern Datensatz abhangt. Sie wird dann auf den Teil des Gesamtda- 
tensatzes arigeweiidet, bei dem interessiert, qb er ein Cluster ist. Es sollen dann sowohl 
die Punkte dieses Teiles als auch die anderen Punkte klassifiziert werden konnen. Es 
wird also eine Bereichsschatzung auf M benotigt . Seien im folgenden Z, Af, X, wie 
gehabt bzw. in den Defihitionen 7.1 und 7.2. Die restlichen Bezeichnuhgeh sind aus Ab- 
schnitt 1.7. 



Definition 7.3 ( Allgemeine Fixpunktclustervektoren) Seien lu • ♦ ♦ , h Aiisfei- 
fieridentifizierer, Sei weiierhin 

f : {0 2 l} h hk {0: l}% 9 ^ (l - ^)(Z(fl)](zi) t . ... , 1 - /n( 5 )[Z(g)](z„)) .. 

Dann heifit g mit n(g) > 0 Fixpunktclustervektor (FPCV) bzgl Z ; wenn g Fixpunkt 
von f ist, also f (g)=9- 



ll In (7.2) und (7.3) konnte „=" durch „>" ersetzt werden, urn grSBere Allgemeihheit zu erreichen. 
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Abbildurig 7:i Fixpunktcluster 

Ziir Interpretation: Wir interessieren uns dafur, ob ein bestimmter Teildatensatz Z(g) von 
Zein.FPCjst. gj M 1, wenn z } zum Teildatensatz Z{g) gehort. Definition 7.3 besagt, dafi 
dazii fur jeden Punkt % i = l fi . , r$ der Ausreifleridentifizierer 4(g) [Z(s)](^ ) berechnet 
werden muB. Das heifit: Es mu8 ermittelt werden, ob beziiglich 2(g) ein AusreiBer ist 
(d.h. / n ( s )[Z(s)](zi) - 1) oder nicht 5 ist genau dann ein FPCV, wenn kein Punkt aus 
Z(g) AusreiBer bzgl. Z(g) ist. aber alle Punkte aus Z(l ~ g) ; 

1st g ein FPCV, so wird dadurch auch eine zugehorige geschatzte AusreiBerregion 
i4 n (^(Z0)) festgeleigti DieVDefibaition der^ entscheidend von 

der Definition der Ausreifieridentifizierer bzw. -regionen ab, 

Abbildung 7 zeigt den anschaulichen Fall der Lagescfeatzuinyg imM% der in dieser 
Arbeit sonst nicht weiter behandelt wird, Sei g(z) := (l[zi € J3]) t =i,_, n . Urn zu ermit- 
teln, ob die Punkte in B ein FPC sind, mufl! die gescEatzte AusreiBerregion A^ g) {Z(g)) 
ermittelt werden. In diesem Beispiel sei das B c . Also ist kein Punkt aus B AusreiBer 
bzgl. Z{g), aber alle Punkte aus B c . Daher ist g FPCV bzgl Z. 

Interpretiert man die A^x >An al$ Schatzer fur ein A(a,P) mit festern a (im Un- 
tersehied zur Konzeption von Davies und Gather), so ist der M Clusterindikator" 1 - 
I n (g)[Z(g)\ ein naturliclier, Schatzer fiir folgenden ^Parameter" der zugrunddiegenden 
Verteilung: 
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Definition 7.4 (Allgemeine Fixpunktclusterindikatoren) Set V die Menge der 
Verteilungen auf (M r B), V 0 C P, Weiterhin sd 1 \:= [g e{0yl} M : {flf = l}€S} 
die Menge der B-'mefibaren Indikatorfunktionen. A sei Ausreifierr^ioh mit a > Q Jest 
vorgegeben, 

A p : PH'-B, Ph Ap{P)y wobei VQe Po : A V {Q) == 4(c*, Q). 
Fur P e V) B e B sei P B P(*\B) e P (beliebig, ivenn P(B) = OJL Mm se: 

/ : JH J, ? Hl -l(t € - 
Dann heifit g mil P({g = 1}) > 0 Fixpunktclusterindikator (FPCI) bzgl P, wenn 



Zur Interpretation: 7? 0 enthalte die Verteilungen. die als ,,clustergeneriererid" interpretiert 
werden sollen. Damit meine ich, dafi Daten, die von einem geraeinsamen Q 6 Vq erzeugt 
werdetf, in unserem Clusterverstandnis ^zusammehgehSrig" seiri sollen. 12 Zum Beispiel 
kann Vq die Menge der p— dimensionalen Normalyerteilungen sein. waHrend Mischungen 
von Normalverteilungen oder bimodale Verteilungen eher inehrere Cluster generieren. 
Fur jede Verteilung aus Pq soli eine Ausreifierregibn A(a, •) defiriiert sein. Diese Defi- 
nition wird mSgHchst sinnvoll (zum Beispfel stetig oder durch direkte Obertragung der 
Definitionsgleichung) auf ganz V fbrtgesetzt. Die Verteilungen aus Vq bestimmen also 
den Begriff „AusreiBey* auf ganz 

f ordnet g die Iridikatbrfunktion der Menge zu, die die Punkte enthalt, die bzgl. 
P{g*zi) keine AusreiSer sincL P{$=i] ist die bedingte Yerk P unter {g - l|>alsp eine 
durch g abgesehinittene (,, truncated") Verteilung, 5 ist FPCI, wenn genau diese Punkte 
aus M nicht in der durch sie definierten Ausreifierregibn liegen. In diesem Sirine sind 
dann die Punkte; aus {g == 1 } „ zusainmengehorig'* . 

Ware g - 1(* 6 B) iri Abbildung 7, so ist g FPCI bzgl; Q, wehn Ap{Q&) = J3 C , also 
die Punkte aus B c genau die Ausreifier bzgl. Qb sind. Die Punkte aus B konnen dann 
als „Fixpunktduster" bezeichnet werden. Das kann zum Beispiel erf iillt sein. werin Q 
eine zweidimensiqnale Dichte hat* die in der Mitte von B ein lokales Maximum hat, in 
der Umgebung vdn B sehr riiedrig ist und erst weikvbn B entferrit wieder hohere Werte 
annimmt. Eine solche Verteilung hat audi deri abgebildeteri Datensatz erzeugt. 

Ich werde nun einije Aspekte des, Fixpunktclusterkonzeptes diskutieren. Definition 
7.4 beinhaltet keinen direkteh Zusammenhang zwischen den FPCI und den Ausreifier- 
regionen der Verteilungen Q € Vq. Ist g FPCI bzgl. Q, so ist {g = 0} nicht notwendig 
a— Ausreifierregibn von Q nach Definition 7.1. Ahgenommen, es gabe a% "nicht notwendig 
gleich a, so dafi ein FPCI bzgl. Verteilungen aus P 0 Indikatqrfunktion fur das Komple- 
ment einer ai-Ausreifierregion ware, dann ware fur Q hur genau ein FPCI vorhahden, 
namlich die Indikatprfunktion der ; Menge der ai-NichtausreiBer. Das wSre sinnvoll, da 
Q € Pq ja jjZusammengehorige" Punktmengen geherieren soli. 

12 Aufgrund der etwas mifiverstandlidien Begriffsbildung sei ausdrucklich betont, daB eine „c!uster- 
generierende \ r erteilung u nicht etwa eine Verteilung ist, die mehrere Cluster generiert. Stattdessen soil 
eine „clusterjgenerierende Verteilung" einen horhogenen Datensatz (Cluster) modellieren. 
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Definition 7.5 (Ausreifiereigenschaft) Vq hat die Ausreifiereigenschaft bzgl 
3a x € [0,1] : Q € V*, g FPCI bzgl Q => A v {Q [g = i} l = A(a u Q). 



Im hier bekandelteh Regressionsfall wird die Ausreifiereigenschaft erfiillt sein (Bemer- 
kung 12.3). 

Der Zusammenhang zwischen AusreiBererkennung und der ; Analyse von Mischmo- 
dellen wie in Abschnitt 2 besteht darin, dafi Mischmodelle audi die Form (7.1) haben. 
Wie in der auf dieser Formulieruiig basierten Ausreifieranalyse besteht dabei auch das 
Problem, dafi die verschiedenen Mischungskomponenten nicht notwendig Punkte gene- 
rieren, die sich mit grofier Wahrscheinlichkeit deutlich voneinander unterscheiden (vgl. 
zum Beispiel Abbildung 2 in der Einleitung). Bei der stochastischeri Ciustefanalyse durch 
Mischmodelle ist also zu beachten, daf! ein Mischmodell nur dann yerschiedene Cluster 
im anschaulichen Sinned gerieriert, wenn die Mischurigskompbnenten^ hinreichend uriter- 
schiedlich sind. Der Idee nach sollen FPC Cluster in einem anschaulichen Sinne sein. Das 
Ziel ist also nicht in enter Lime, die Parameter eines Mischmodells zu sdiatzen, sondem 
Klumpen von paten zu finden. 

In dieser Arbeit wird es fast ausschliefilich urn die Anwendung des FPC-Konzeptes 
auf den Fall linearer Regression gehen. Nur im folgeriden Abschnitt werde ich kurz die 
Anwendung der Idee auf eine andere Situation skizzieren. 

Festzuhalten ist, dafi audi allgemeine Fixpunktcluster die bereits in Abschnitt 3.5.1 
erklarten-ESgenschafteti „lokale Definition eines Clusters", „kein Partitionszwang" und 
•,keine Optimallosung eines Entscheidungsproblems" haben. 

Ein Fixpurjktciuster wird immer durch einen Indikator g definiert. Das Konzept ist 
audi in deni Sinne „lokal" , dafi Fixpunktduster eines Datensatzes oder einer Verteilung 
erhalten bleiben, wenn Punkte (bzw. eine weitere Verteilung) hinzugefiigt oder entfernt 
werden, die aufierhalb des Clusterbereiches {g = 1} liegen. also Ausreifier bzgl. des 
Clusters sind: 



Korollar 7.6 (Fixpunktcluster und Ausreifier) Sei Z t := {zif-%tni)'i Z 2 ':== 
(zu-.^Zn*) 1 mil n 2 > 7h > 0. Seien l u Ausreifierideriiifizierer. Sei fur 

5e{0 t l} nV 

Vn 2 > i > n t : In( g )[Zi{g)]{zi) = 1. 

Dann ist g FPCV bzgl. Z x genau dann, wenn h = {g u . . . , jfeii 0, .-. » , 0) FPCV bzgl Z 2 
ist 

Seien P,R € V und fur g P G / sei % r =i> = F{ ?P= i}. Dann ist g F FPCI bzgl R 
und P{{gp = 1}) > 0 genau dann, wenn g P FPCI bzgl P ist und R({gp = 1}) > 0. 



Beweis: Bezeichne f% x und fz 2 die Funktianeh / aus Definition 7.3 bzgl. Z L und Z 2 . 
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Offenbar ist Z x ($) = fyg). Es folgt direkt 

9 = fz l (g)<#h = fz t (h)- 

Analog bezeiche f P und f R die Funktionen / aus Definition 7,4 bzgl. P und J?. Dann 
folgt direkt 

5f = fp(9p) & 9p = fn(gp)- 

In Abbildung; 7 klumpen sicli die Punkte im Zentrum von B: Das Korollar besagt hier, 
dafi diese Punkte ein FPC bleiben, wenn in B c Punkte hinzugefiigt oder weggenommen 
werden. 

Die „lokale" Definition des FPC bringt .die Moglichkeit. von einzelnen vorgegebenen 
Teildatensatzen von Interesse direkt auszurechneri, ob sie FPC sind. Andererseits ist es 
schwierig. die Fixpunktcluster eines gegebenen D^tensatzes bzw. einer gegebenen Vertei- 
lung vollstandig zu bestimrnen^ Theoretisch miifite man die Fixpunktelustereigenschaft 
fur jeden Indikatorvektpr aus {0,1}^ bzw. jede niefibare Indikatorfunktion auf M em- 
zeln nachprufen^ was normalerweise kaum moglich sein wird- In Teil III werden zum 
Beispiel im Eegressiomfall su verscliiedeneri Verteilungen FPGI berechnet. Bis auf eine 
Ausnahme werden dort nur Existenzen, aber keine Eindeutigkeiten gezeigt. 

Unter Urns tanden konnen aber relevante und irrelev&nte Fixpunktcluster unterschie- 
den werden: Im Falle von Daten aus einer Mischverteilung konnen zum Beispiel die FPC 
^relevant" genanht werden. die den Mischungskomporienten entsprecheil, wobei noch zu 
prazisieren ware, was cas bedeutet. Die Problemstellung ware dann, uriter Zuhilfenahme 
eines geeigneten Algorithmus (fur deh Regressionsfall siehe„ Abschnitt 9) alle releyanten 
FPCV zu linden. Inwiefern das gelingt, wird in den Simulationen in Teil IV untersucht. 

Im Falle eines Daterisatzes aus einer Verteilung rait nicht identifizierbaren Parame: 
tern - aber d^utlieh getrennten Mi^iurijgskbmpdnenten - karin ein Verfahren mit ether 
„lokaleri" Clusterdefinitipn in der Lage sein, alle unterschiediichen MSglichkeiten zu fin- 
den. In Abschnitt 16.2 wird unter ahderem eirie sdlche Situation simuliert. 

7.2 Beispiel: Fixpunktcluster fur O-i-Vektoren 

Bevor ich zum linearen Regressionsfall komme, gebe ich ein alternatives Beispiel fur die 
Anwendung des Fixpunktcluster-Koiizeptes. Damit soil zum einen die Idee illustriert wer-r 
den, Zum anderen soli gezeigt werden,, dafi der FPC-Ahsatz audi jiber den Regressionsfall 
hinaus mit Gewinri angewendet werden kann. Sei in diesem Abschnitt Z = (zi, . . . ,.*„)', 
Zi = € {0,l} fc fur i = l ? ...,n. Es: geht also darum, Cluster aus eir; 

nem Datensatz von Ar-dimensionalen 0-1-Vektoren zu bilden. Es sei z ? :== £ Pij fur 
j = l,.i.,fc. B[k,p], k '€ IN, pe [Oyl] bezeichne die Bin6mial{A%p)-Verteilung (bzw. 
deren.VF), j4B[fc,pi. ,iPk)t k € IN,. p u . ..,pk € [0, 1| bezeichne die yerallgemeinerte 
Binomialverteilung mit Parametern (k, p u , • . , p^), 13 

k 

P[fc sPl , . . M p*] := (g)B[l, Pi ], Vo := {P[k,p u (pi, . . M p*) € [0, l] k ) 

13 Unter der n verallgemeinerten Binomialverteilung" mit Parametern fc,Pi....,p* verstehe ich die 
Verteilung einer Summe aus k unabhSngig B(l f pij-^rteilten Zufallsvariablen, i = !,..., k. 
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fur gegebenes k. Die Menge Vq sei die Menge der „clustergerierierendeh w Verteilungen 
wie in Definition 7.4. Das bedeutet: Wir betrachten 0-1-Vektoren als n zusammengehorig" , 
wenn sie aussehen, als seien sie von derselben Kopplung unabhangiger Bernoulli verteilun- 
gen erzeugt. Anschaulich konnte man nun einen Punkt als Ausreifier zu einer gegebenen 
Verteilung P[fe, j&i, . , Pxr] € V Q bezeicknen, wenn moglichst viele seiner k Komponenten 
von der zu erwartenden Klehrheit abweichen. Formal: 

VJ>[feA,.,.,ft] 6 Fo : 
A(a\P[k t pi r . . ,pfc]) := {z e{Q,l} k : m\p u . . . } p k )(z) > c(d)} , 

wobei c(a) := minjc : 1 - B[k\^][c) < a j , 
m]pu • . < ^}(z) g < |) + (1 - >!)]• 

m[p l? . . . ? p*](z) ist also eiri Zahler dafiir, wie haufi'g zj zur „Minderheit" gehort. Iiii Palle 
pj = I ist dias etwas wiilkurlich, es konnte auch „<" und „> u heiflen, Indem ro[pi, . v p*] : 
durch m[/ zidPi^z). . . M /i&dPj^)] ersetzt wird. kann die Definition von A kanonisck auf 
alle Verteilungen P auf {0. 1}* ausgedehnt werden. 

Bemerkung 7;7 Die Abbildung A definiert fiir P € Vq tatsdchlick eihe a-Ausreifier- 
region nach Definition 7.1. Es gilt namlich: 

C(z) = P[k t pu... i p k ]^£(m\pu. . . ,p k ]{z)) - AB[k t q ly .. . 
wobei fiir jf = X , — . fcv: q t = p/lfe < §) + (l - Pj)l(Pj > §) < |. 

• • ftlfy : 2/> c(a)}<B {y: y > c(a)} < a. (7:4) 

Gleichung (74/ fol0 ous Theorem A duf S.Sl von Szekli (1995). Dieser Satz besagt, dap 
die Verteilung eitier fa Zufullsvariablen sich sto- 

chdsUsch vergrdJierti wenn einzelhe Sumrhaixden dutch Zufdllsvariablen friit stochdsiisch 
grofierer Verteilung ersetzt werden. 

Fiir k = 5, a = 0.05 gilt zum: Beispiel c(a) = 5, denh 1 - £[5,§](5) = ~ und 1 - 
£[5, |](4) > 0.05. MitP = P[fc, a 0, J- f j ist zum Beispiel A(a y P) = {(1, 1, 1, 0, 0)}. 

Bemerkung 7*8 g 1 (• e {0, \ {(1,1.1,0, 0)}) ist in diesem Beispiel PPCI bzgl: 
P, denn P{(L 1, 1, 0 ; 0)} = 0, also P(*\{(h h h 0, 0)} c ) = P, A 7 >(P [ ; lA>1 ,o ; p)}0 = A(a, P) 
und f{g) = 1 (• € ^l(a,P) c ) = g nacA Definition 7.4. Fiir dieses spezielle P und g 
gilt damit duch die rechte Seite der Gleichung aus Definition 7.5 rnit oi\ = a. Fiir die 
ErfiUlung der Ausreifiereigenschaft mufite fiir P £ Vq zusatzlich gezeigt werden, dafi es 
keine weiteren FPCI gibt. 



l4 Diese Einschr&rikung wSre nicht hdtig und wird von Szekli gemacht, weil der Satz zusfttzlich eine 
Aussage Qber die Zalil der Summandeh enth&It. 
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Der kanonische Schatzer der AusreiBerregion A(a, •) und der zugehorige Ausreifieriden- 
tifizierer sind dann 

A n (Z) ~ {z:m(z u ...,z k ) > c(<*)}, I n [Z}(z) := l(z € A n (Z)). 

Fur k = 5 r dc = 0,05 sei zurri Beispiel n = 4. j*i ■= (6,0,0,1, lj,>2 - (0,0,0,0, 1), z$ =; 
(0, 0,1, 1, 0), z 4 = (1, 1,1, 0, 0), Dann ist 5 =(1,1, 1,0). FPCV bzgl/Z, Es ist namliclr 

Z{g)^{z u z 2 yZz), 

2(a)i - 0., z(s) 2 = 0, z{g) z = J, *($) 4 = f, *(s) 5 w j, 
m:= m[I^pi>vi(fl)J, m(zi) =0, ro(i&) = 1, m(ftjt> l^rn^) ~\ 
1-^)[Z( 5 )](^) = lfuri = 1,2,3, l-/n(,)[Z(9)](^)=0, 

dih. bzgl. <Z(jj) ist niir z 4 Ausreitier und /(g) = 5 gemafi Definition 7.3, 1st dagegen 
g = (1, 0, 1, 1), so berechnet man 

*&)i = i ^2 = i(5)s = |i ^(5)4 = §V = i 

damit m(^2) = 3 < 5 und daher 1 - /n( 5 )[Z(5)j(z 2 ) = 1 7* 52* 21, 23 und Z4 bilden also 
keinen Cluster, da z 2 kein Ausreifier ist. 

7.3 Fixpunktcluster und die Selbstorganisatibh der Wahrneh- 
mung 

Ich werde kurz einen nichtstochastiscken Zugang zur Fixpunktcluster-Idee erlautem. 
Fixpunktcluster kpnnen als. Modellierung; von Objekten der Kognition im Rahnieri der 
SelbstbrganisationstheDrie interpretiert werden. 

Heinz von Fprster (1976) formalisiert menschliche kognitive Aktidrien als rekursive 
Operatoren auf einem Bereich von ,,Obseryablen": Das heifit: Eine kognitive Handlung 
operiert mit ihrem eigerien Ergebnis: 

pbs f >i = CQ0RP(6bs f ). (7.5) 

.jCJQORD" steht; fur „Koprdination u . Kognitive Prpzesse; werden nun als die rekursive 
Berrchnung eine Realiiat abhangig von der Weise, in der das Subjekt operiert, aufgefafit. 
Von Fdrster (1973) 15 gibt dazu folgende Illustration: 

Kbgriitiori * Bttechnu ngen von j 

Dieser Aiisatz karih audi rait biologischen Argiimenteri begriiridet werden. Von Forster 
yerweist dafiir auf Piaget (1975) und Maturana (1970). 

Von Forster erkl&rt, daB fur eine externe Beobachter/in die „Objekte" einer Person 
nicht von den Fixpunkten 10 der Operation (7.5) unterschieden werden konnen. Das be- 
deutet: Die Beobaehter/in nennt ein Objekt „erkannt" durch die beobachtete Person, 
wenn die Koordination der Handlungen der Person beziiglich des Objektes stabil sind. 

^Die deutsche Overselling beider Arbeiten ist enthalten in von FSrster (1993), 
l6 Von Fdrster benutzt daftir den alteren Ausdruck „Eigenwert u . 
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Eiri soicher Prozefi wird dutch Fixpunktclusterbildung modelliert. In dieser Termi- 
nologie waren die Cluster (oder Muster) eines Datensatzes die zu erkerihenden Objekte. 
Stellen wirunseinen Ffcpunktalgorithmus = /(^) vor. / definiert dann den Teilda- 
tensatz, mit dem die Iteration beginnt, die initiate Observable. Die Funktibn / definiert 
die Handlungea, die der Algorithmus mit den Daten durchfuhrt, und ein FPC ist ein 
stabiier Puakt dieses Prozesses; 

8 Fixpunktcluster im Regressionsfall 
8.1 Regressions^ 

Das fur meine Zwecke am einfachstert handhabbare Modell aus Abschnitt 2 ist das 
Mischmodell 3 mit stochastischen Eegressoren und Normalverteilungsannahme fur den 
Stfirterm. In der spateren Theorie werdeich nucih auf dieses Modell beschrShken. Deshalb 
wird audi bei der Einftihrung der PPCI fur liheare Regrrasibtfuur der JPa.il stochastiscKer 
Regressoren bjetrachtet M^ selben Definition d^s 

PPGV fur Datensatze (geiiiafi Abschnitt 8.2). Sei also nut deii Bezeiclinungen aus Modell 
3 

dte Meng£ cfer elustergenenieferideit \^rteilurigeia. Ein Punkt kann siimvollerweise eiri 
Ausreifier. bzgl einer Regressibnsverteilung F(%$<r 6 ; G) genannt werderi,. wenn er weit 
von der diirch $ definieHen Regr^sionsiiyperebeine entfemt ist. Also: 

A(a A F&prfM ~ {&y) hfy - ^) r > c(a)a 2 } ?Jf § JM* flfc (P) 

wibeii c(aj das (1 - <i)-Quantil der xf^rt&lung sei, so dafi P(A(a, P)) = a VP € Vo- 

Bemerkung 8.1 Man kohnte mch Ansfe die von der Vertei- 

hm& der Regressoren abhdngig sind> Im Rahmen dieser Arbeit sollen aber Daten mit 
deutUch unterschiedlichen Regressoreni aber gleichern Unearem Zusaihmenhang als zu- 
sammengehorig 6efe*c&ief 

A kann folgen^ : C(X p +i) = li} erweiteri werden; 

iPZP: Ap(P) ~ l&y); (y^mP)? > c(tt)* 2 (f)}, wobei 

falls arg min J(y- x'(i)*dP(x,y) existiert und eindeutig 1st, und Ap(P) = 0 sonst. 0(Pj 
p /." ' ' " ' ............. ' . . : 

ist die Yerailgemeinerurig des KQ-Schatzers aiif W-Mia6e; Ein eindeutiges /?(P) existiert 

zum Beispiel, wenn £(||x|| 2 ), E(y 2 ) und [E{xx')]~ l existieren; siehe Hilfssatz 11.1= 

Bemerkung 8.2 £h'e*e Erweiterung ist nicht die einzig mpgliche und vermuUich nicht 
eininal eine besonders gute, da sie durch die Verwehdung des KQ-Funktionals nicht 
schwach stttig und damit nicht qualitativ robust ist (siehe zum Beispiel Huber (1981), £ 
10): Ich werde in dieser Arbeit aber dabei bleiben, da sie am einfachsteri hdndhabbar ist 
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Definition 8.3 (KQ-Fixpunktcluster-Indikatoren) Set P € P und g : Ul p+l >-» 
{0,1} erne IB p+l -mefibare Indikatorfunktion 17 . Fur gegebenesc > 0 ( „Fixpunktcltister- 
Justierkonstante") istg eiri KQ-Fixpunktcluster-Indikator (KQ-FPCI) bzgl. P 

Sg(x,y)dP(x,y)>\ (8.3) 

arg min J{y — x'f3) 2 g{x. y)dP(x t y) existiert und ist eindeutig, (8,4) 

p ■ 

s(x, y) =i[(y - *7%,P)) 2 < <^(ff,F)l V(x,y) effi" x {1} x/R, (8.5) 

wo6d 0(p, P) := arg min f(y - x'0) 2 g(x, y)dP(x, y) , (8.6) 

* (5i n - — j a ^w*,y) — • w 



In Definition 8.3 werden KQ-FPCI fiber die Fixpunktgleichung (8,5) fur Indikatorfunk- 
tibnen definiert. Fur die sp&tere Theorie ist. es mauchmal niitzlicher, eine aquivalente 
Formulierung mit einer Fixpunktgleichung fur die Regressionsparameter zu benutzen: 

Bemerkung 8.4 Set c > 0 fed, Q € P. Fur 0 € ZR P+1 , s 2 6 2RJ sei.ge^ : iR p+1 H- 
{0, 1} definiert gemafi 

9eAx>v) :=l{(y-x'0) 2 <cs 2 ). (8.8) 

Donh isf nocn Definition 8.8 KQ-FPCI bzgl. Q genau danti, wenn (8.3) und (8.4) 
p- g =g^erjm^^und (6\?) € 2R p+l x k% Fixpunkt ist von f : W +1 xZRj 
h p+l x ^. gemSfi 

/(f S 2 ) = (/?( S ^ 1 Q),a 2 ( % 2 1 Q)), (8.9) 
0 dejwertjk (8.6), o 2 in (8. 7). 

Bemerkung 8.5 Fur P € V seimit D gemafi (2.2) 

VB G IB P+2 : P C (B) :=. P{{x, y) : D(ar, y) 6 B). 
Dann M- & 9 KQ-FPCI bzgl. P, so ist g' gemafi 

9% V) := S (D~ l (x,y)) V(x, y) 6 ffi p+2 
KQ-FPCI bzgl. P D und 

f)(g-,P D ) = (T->)'(af3(g,P)-rb), (rV,P D ) = aVfo,P). 
i4fao stnd KQ-FPCI aquivariant gegeniiber Transjormaiionen der. Form (2.2). 
l7 Der Einfachlieit halber schreibe ich auch im Regressionsfall mit Achsenabschnitt iramer g(x\ y) statt 
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Beweis: Mit der Trarisforrriationsfbrmel gilt / g*dP D = J g dP und damit auch (8.3) fiir 
g' bzgl. pQ. Da D eine invertierbare affin-lineare TVansformatioa 1st, folgt auch (8.4) fiir 
g* bzgl P D . Weiter gilt 

0{g', P D \ = arg uiin j(y - x'fifg'ix, y)dP D {x.;y) = 

= arginih / {ay + x'b - x'Vpfgfa y)dP(x, y\ = 

0 J 

= argniin J ^y-tfQL^j g{x, y)dP(x,y) = (r- l )'(a0(g..P) +b) und 

J(iy+x'b-x'T'0(s',P' } )) i g{x,y)iP(x,y) ,2 {(v-z'f>{9>P)?9(*,V)<IPi*.V) _ _ 2 Jit - r>\ 

= / S (x*) rf P(x.„) = ° — jii^fe) ~ 0<r & F ^ 

Mit (8.5): 

9 ?m =9 = i ([^^ -m p)] 2 < c^( S , p)) = 

= 1 i[y - x'{T-'Y{a0{g, P) + V? < <»V(<?,P)) 
= 1 ([y - * P D t < co*tf, P D )) . 

Also gilt (8.5) auch fiir g* bzgl. W\ so dafi alles gezeigt ist. 
8.2 Hegressions-Fixpunktclustervektoren 

Es ist nun nahdiegend, die in (8.2) definierte Ausreifierfegion zu schatzeh, indem /3 und 
<r} einfach durch die tiblichen Schatzer ersetzt werden,. d.h. 

Ajz) :- {(x,y) : (y - V/3(Z)) 2 > c(a)a 2 (Z)} , wo&ei 
0(Z) := (XXJ^X'y, 
<r 2 (Z)> j^nEiUfo - ^(Z)) 2 i (8.10) 

falls X'X invertierbar und n > p + 1, j4„(Z) :,= 0 sonst mit den Bezeichnungen aus 
Abschnitt 1.7. Eingesetzt in Definition 7,3 ergibt sich also 



Definition 8.6 (KQ-Fixpunktclustervektoren) Fur festes c > 0 ist g — 
(gu - •'• ,.9n). € {0,1}" KQrFixpunktclustetvektor (KQ-FPCV) bzgl. Z 

(X(^)'X(y))- 1 existiert, n(g) > p + 1, (8.11) 
S = /( 5 ), ™.te/K$) = l([y f -:^^ Vi = l,...,n. 

Po/fe X'X nic/i< invertierbar oder n < p + 1, sei nur (!,.:.,!) KQ-FPCV bzgl. Z. 
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Bemerkung 8.7 KQ-FPCV sind linear dquivariant: Zu gegebenem Z sei TP definiert 
wie in Bemerkung 3.3. 1st g KQ-FPCV bzgl. Z, so ist g auch KQ-FPCV bzgl. TP, wobei 

P(T. D (g)) = (r-yW(Z(9)) + b), ATP(g)) = .«V(Zto}), 
Beweis: Sei P die empirische Verieiluhg zu Z, P D die empirische Verteilung zu Z D $ 
9<> (x,y) ~l([y-x'0('Z(9))? < co\Z{ 9 ))) , 

also gi ;'■= <fofxf, yij jiit i == 1, . . . r rt #q sei definiert analog zu g* inBemerkung.8. 5. Dimn 
gilt auch g^ gl[^ alles aus dem Beweis von Bemerkung 8.5. IS 

Nach den Kriterieh von Davies uiid Gather (1993) ist eine Ausreifieridentifikation gut, 
wenn sie in der Lage ist, auch in Anwesenheit mehrerer unglinstig plazierter Daten 
noch deutliche Ausreifier zu identifizieren und andererseits nicht zu viele „gute Paten" 
fur Ausreifier zu hdten. Das bedeutet' ungefahr, dafi ein guter Ausreifieridentifizierer 
bei Daten, die gemafi (7.1) mit ungiinstigem erzeugt sind, die a rt -AusreiBerregion 
yon H Q noch gut schatzen soil. In diesem Sinne ist die Schatzung nach (8.10) schlecht, 
denn J?(Z) und or 2 (Z) haben feeide; Bmchpunk't (breakdown point) d.h. schon .ein 
einziger extremer Datenpunkt kann sie beliebig weit von den zu schatzenden Paratnetern 
entfernen (siehe zum Beispiel Rousseeuw und teroy (1988)). Fur die Fixpunktclusteridee 
kann die Schatzung aber trotzdem tauglich sein, denn falls die Pixpunktgleiehung in 
Definition 7.3 erfullt ist, wird die Ausreifieridentifikation nur mit einem Teildatensatz 
berechnet. Wenn dieser Teildatensatz nur Daten enthalt, die zusammengehdrig sind, d.h. 
keinen Ausreifier enthalten, kann die zugehorige Aiisreifierregion mit (8.10) verniinftig 
geschatzt werden. Die Bntscheidung, ob ein solcher Teildatensatz ein FPC ist, wird also 
aufgrund einer brauchbaren Parameterschat zung vorgehommen. 

Andererseits besteht naturlich di^Gefabri ! ,<^ ; 'l^ldatep.G#tze > mit extremen Ausrei- 
Bern eberifalls FPC sind, weil die Ausreifier wegen der unrobusten Parameterschatzer 
nicht entdeckt werden. ^owohl in der Theorie als auch bei deh Simulation^ wird irri fol- 
gehden entsprechend meistens dte Existeriz sinnvoiier Cluster gezeigt, nur selten aber die 
Nichtexistenz von unsinnigen. Ich habe mich in dieser Arbeit auf die Schatzung gemafi 
(8.10) beschrankt, da sie mathematisch am einfachsten handhabbar ist. Die Verwendung 
einer robusteren Ausmfieridentifikation konnte die Resultate des Verfahreris verbessern. 
Als euifachste Moglichkeit bietet sich hier an, 0{Z) und <? 2 {Zj durch robuste Sch&tzer 
zu ersetzen spwie das KQ-Funktidnal bei den FPCI durch die entsprechenden robusteren 
Funktionale, siehe Bemerkung 8.2. Allerdings hatte das wesentlich hohere Rechenzeiten 
zur Folge, wollte man bei der Berechnurig gemafi Abschnitt 9 vorgehen. 

Zur Wahl der FPOJustierkonstante c: Gemafi (8.2) sollte c ein hohes Quantil der 
X\- Verteilung sein. Fiir eine Verteilung Q aus Vq sollte ein FPCI g existieren, dessen 
Parameter Q{g>Q{ Q =x}) und <r(g x Q{ 9 =i}) nicht sonderlich von und a 2 abweichen. Ent- 
sprecherid sollten bei einer Stichprobe aus Q moglichst v/enig Punkte ak Ausreifier klas- 
sifiziert werden, d& Q due clustergenerierende: Verteilung sein soli und die Punkte aus Q 
in diesem Sinne alle zusammengehoren. In Bemerkung 12.3 wird gezeigt, dafi das Komr 
plement eines FPC eiae c*i-Ausreifierregion von Q mit ai > a ist. Dieise Uberlegungen 
deuten darauf hin, dafi a kleiner als 0.05 oder 0.01 gewablt werden sollte, da sonst mit zu 

18 Es gilt a 2 (g^P°)^~^zx = <r*(Z D ). Das macht im Beweis aber keihen Unterschied. 
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grofier Wahrscheinlichkeit „gute" Punkte als AusreiSer klassifiziert wurden und damit 
Information fiir die; PiarameteKchatzung verlorenginge. Weiterhih gibt es nach meiner 
Erfahrung mit a > O.01 in- vielen Datensatzen extrem vieie FPCV. Es l&ge also nahe^ 
a me On in (7 3) zu wahlen. AUerding? miissen mithilfe yon (8.10) bei der Bestimmung 
yon FP£ zu Teijdatensatzen mit unterschiedlichen n Ausreiflerregipnen mit gieichen a 
geschatzt werden. 

Ich habe in den Simulationen und : Bdspi^len mit c = 10 gearbeitet, was = 
1-^(10) = 0.00157 eMsprichtv Dists entspricht a n gemafi; (7.3) fur <% = 0.05 und 
n - 32.65, d.h. die Wahrscheiniichkeit, dafi von 32 Punkten aus Q keiner als Ausreifier 
klassifiziert wird, ist rioch groBer als 0.95. Das ist gleichzeitig die Wahrscheiniichkeit, dafi: 
ein ^ GrpBe aus Q em FPG ist; 

Alle theoretischen Resuitate s^ Schranken Mr cyoraus. Die hpchste untere 

Sf^anp: i& 71.4065 un| wird in Satz 13.11 benotigt; Die Beispiele 13.6 tind 13.14 zeigen, 
daB Misdiungskompone^^^ in Mischverteiiuiigen weniger gut getrennt sein miissen, um, 
K(^FPGI zii erzeugenj wenn c so kiein wie mogiich gewahlt wird. Das stimmt riiit meiner 
fiepbaclitung uberein, daft es mit niedrigern c mehr FPG gibt « sinnyplle wie sinnlose. 

$ Bereehnung von KQ-Fixpunktclustervektoren 

Ich habe berei ts er wahnt f dafi man theoretisch alle Teildatens&tze eines gegebenen Daten- 
satzes Z uiitersuchen raufite, urn alle KQ-FP0V zu fim^m JDas ist; naturlichi uamoglich, 
aufier bei ganz kleinem n. Urn gezielt FPGV zu findM,, liegt es riahe, den ublichen Fix- 
punktalgprithmus zu yer wenden : t^an st art et ; mit 5^ <E, {0,1}* und iteriert g k + x = f{g k ) 
bis g k = /(j fc ) mit / gemafi Definition 8.6. Diese;- Prbzedur wiederholt man sehr haufig 
foehe dazu Abschnitt 15.L1)? zum Beispiel mit zufaUig gewahlten g° oder audi mit 
T&ldateiisate^ voii denen man vorher dien Verdacht hat, sierseien zusammengehorig. 
Naturlich kann man auch danh nicht sicher sein, alle ira Daterisatz enthaltenen FPCV 
zu tfnderiv Das Ergebnis des VerfeJirens bleibt in diesem Sinne zufMig. Ehtscheidend 
ist aber letztlichi pb cie am Ende gefunderieh FPG siiinyblle neiiS Erktontnisse iiber 
den Datensatz bringen. woriibier man anhand der Simulatipnsergebnisse in Abschnitt 16 
befi^^n rna^ 

XJm Kpnyergenz des Fixpunktalgorithmys und damit auch die Existenz von KQ- 
FPGV fur gegebene Daterisatze zu zeigen v muB er etwas modifiziert werden:, 

AlgoHthmus i: WMe g° mit n(j°) > p + 1 

Schritt 1: Berechne./3(Z(^ 
SchriU 2; 

gt x =#+1 [1 Gw - mww ^ y i2^)ft>^] . ■ < = r - • 

t^^ 1 indiziert alle durch g k indizierten Punkte und alle iibrigen Ptnkte^ die 
bzgl . g k keine AusreiBer sind.) 

Schritt 3: Berechne 0{Z(g M )), ^{Z{g^% 



l9 Man vergleiche die Diskussion Uber rele^te FPC auf Seite ffl). 
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Schritt 4: 

rft" = y*+ l -l [l (fo - mZ{* M )}) 2 < c*W +l )]) <0? +1 ], i = 1, • . • , n. 

(jr*+ 2 indiziert nur die durch g k+1 indizierten Punkte, die bzgL g k + l keine 
Ausreifier sind.) 

Schritt 5: Ende, wenn g k = a** 1 - sonst = + 2, Schritt 1. 

Algorithmus 2: Erse&zt man Schritt 2 durdht 

<tf+Wl(^ i = 1,., v? n ? (9.1) 

imd lafit Sciiritt 3 und 4 weg; so erhalt man den iiblichen Fixpunktalgorithmus. der 
erfahrungsgemafi audi iinmer konvergiert . Bin Beweis dafiir ware aber vermutlich 
extirem umstaridlich. Da dieser Algorithmus etwas schneller ist als Algorithmus 1 
und urn zu priifen, ob er allgemein konvergiert, habe ich ihn in den Simulatibnert 
und Abschnitt 10 verweride£ ; 

Der Beweis der Konvergenz von Algorithmus 1 wird folgende Resukate benotigen: 



Hilfssatz 9.1 Gegeben sei em Datensatz Z mit den iiblichen Bezeichnurtgen. Seien 
g l > g° € {0, 1}* mit 31 € {1, ■; . i r n> ? ft 1 - > 9^ Set g? := g x - gfi Set X 0 := 
X(5°), S/o := y(g*h A>-= #(2(9°)) = (X^X 0 )^ l Xii/o und analog X u yu0i^V^ 
Weiter set 

v 0 := x + (4xo)- l x; t v r := x + (xiXi)-*xv. 

Xo und Xi sollen vollen Spaltenrang haben. Dann gilt mit 

M(g) := (y(g)- xWigMvM ~ MoMd)) = 

(Wj + Vor^In^-V,, (9-2) 

M(y*) = M(y°) + (y + ^- X+flJ'fl^, + Vp)-»(y + - X + j3p), (9.3) 

M<j>) =MW~- (y+ - X+&)'(W>- VOr 1 ^ - X+ft) t ; (9.4) 



Beweis: Der Beweis vori (9.2) und (9.3) findet sich in Plackett (1950) (Absatz 8 bzw. 
10). Auf analoge Weise zu (9.3) lSfit sich (9.4) beweisen: Sei I := I„($+). Es gilt 

X' + y + = X' t yi - X 0 yq, X' + X+ = X^Xi - XqXq. 

Damit folgt 

X' + (y + - XM = Xiyi - X 0 y 0 - (X'^i - X 0 X 0 )A, = - Po) =* 

X + (X' 1 X 1 )- l XV(!/* " X + A)) = X + (ft - ft) 
(Subtraktibn von (y + - X+/3b), Multiplikation mit -1) 

=MI - Vj)(y + - X + ft) = (y + - X + A) =f (9.5) 

(x;xi)- l x;y + - (xixo-'xvx^o = 

= (XiXO^XUI - V l )-\y + - X + ft). (9,6) 



9 BERECHNUNG VON KQ-FIXPVNKTCLUSTERVEKTOREN 



69 



Nun 1st 

(X' l X 1 )- l X' + y + = ft- (XiXi)-^yo und 
X' + X + ft .= [(XiXO - (XiXoJKXiXo)-^^^. 

Eingesetzt in die linke Seite aus (9.6) also: 

Pi- 0o = (XiX i )- 1 X!,(I-Vir i (y + - X*A). (9.7) 
Weiter ist X^Xxfii = X f l y u so dafi 

(ifc - X,A)'(yi - X&) = (yi - X l 0 l )'(y l - X l 0i)A (0a- faYX&tfo -0i) = 

= Af (fl 1 ) + (y + - X^)'(I - VO^Yiff - Vi)- l (j/ + - X + A); (9.8) 

wegen (9.7). (9.5) bringt 

(y + - x + A,)'(y + - x + /?o) = (y + - x + A)'(i - Vi) - l (y + - 

Zusammen mit (9.8) - die folgeride Gleichuriggilt nach Definition vbnX 0 ,Xi, X + , y Q , y u y + 
- ergibt sich 

(yo- XW(vb -X^ 0 ) = (yi ^ X^i'(yi -X'^o) -^ - XVffi)'(y + - X' + 0 O ) = 

= W)- (y + -x + A)'(r-v l )- l (? + - xM 

also (9.4). 



Satz 9.2 (Konvergenz) Set c 1. Wenn (XM'Xj?))" 1 /ur <i.'/e ^ € {0,1}" mi* 
n(a) >. p + 1 extsfc'e»f, <fann erreicht -AlgbtiiMiitiJS 1 nach einer endlichen Zahl von 
Schriiten einen KQ-FPCV. 



Beweis: Zur Notation: Es gelten die Bezeichnungeu aus Algorithmus 1. Das bedeutet:, 
k sei gefadej <?* = 1 =f gf +l = 1 und gf** "= 0 gf +2 = 0; Mit „Schritten" sind immer 
die Schritte des Algorithmus gemeint. Aufierdem 

0(g) :=0(Z,(9)h ° 2 (9) :=a s (Z(p)j, 

g*i=g^-g\ r:=^ +1 -5* + ^ 
y.:=y(5+), X + :=X(g+), yl:=y(<T>, XL.*=X(jr)i 
V + ( fl ) := X+{X(9)'X(9))- l X^ Y.(g) ;= X.(X(p)'X(fl))- l X'_. 

1. Abschnitt: Ich zeige zunachst fiir m > -1 durch vollstandige Induktion n(g m + l ) > 
p + .1. n(<j°) > p + 1 gilt nach Definition des Algorithmus 1. Zu zeigen ist: n(g m ) > 
p + l=^n(<? m+I ) >p + l. 
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Induktionsschritt, Fall 1: Sei zunachst o 2 {g k ) = 0, m = k, also 

gf — 1 =£ (yi — x'i0(g k f) = 0 und auBerdem n(g k ) > p + 1. Dann gilt nach Schritt 2 

= 0, n(g fc ti) > n (/) >p + l. 

1st nun <r 2 (5 fc>1 ); = 0, 7n = + 1 iiad n(^ +l ) > p+ 1, so gilt nach Schritt 4 g w = 
also n(p* +2 i> p + 1, Damit ist der Induktionsschritt bereits durchgefiihrt. Es gilt aber 
sogar weiter nach Schritt 2 

<fMt<* - ^(/ +1 )) 2 = 0, und n{g M ) >n(^ +i ) > p + 1. 

Damit ist g^ 3 KQ-FPCV bzgl. Z : denn Schritt 4 und 2 bewirken keine Anderungen 
mehr, 0* +s = g k +* = p t+3 urid damit f{g M ) = s fc+3 gemafi Definition 8.6. Somit ist fiir 
3m : (T 2 (3 m ) ==. 0 bereits der ganze Satz gezeigt. 

Induktionsschritt , Fall 2: Sei also im ganzen folgenden Beweis cr 2 (g m ) > 0 fiir rri =■ 
+ 1, fc + 2. Zu zeigen ist wieder 

n(^) > p.+ I > p + t (9.9) 

Nach Schritt 2 gilt n(s* 41 ) > n(p fc ), also ist nur ro = fci+1 von Ihteresse. Nach Definiton 

: 5^ r ^ 1 A (ift - x0(g™f > ca*(g<»)}\ =n(g~) 

&n{gf) < »(* m) >;>-\ (9.10) 
Daraus folgt im Falle n(p m ) > p + c + 1: 

> (l - |) (P + C +1) + £ £ i =P + C>p + 1; 

Aufierdem gilt rait »($-). € J5V und (910) 

< P + c + 1 ^ 1 > n(r) = 0 ^ n( 5 m+l ): = n( 5 m ). 
Also n(j9 w t l ) > p ~fc 1, der Induktionsschritt ist durchgefiihrt. 

2- Abschnitt: Nun wird gezeigt. dafi 

T : {0, 1}* h> [0, oo) : g h> P n{9 )AH9)) (9.11) 

in Schritt 2 und 4 des Algorithmus streng monoton fallt, falls n(g+)> 0 bzw. n((j~) >. 0. 
Im Falle n(9+) = 0 ist natiirlich T{g M ) T(s*), n(<T) = 0 =» T(/ +2 ) = T( 5 fc+1 ). 

Da |{0,l} n | < oo; bedeutet das, dafi der Algorithmus in einer endlichen Zahl von 
Schritten die Situation rc($ + ) = 0 A n(g~) - 0, also g = g k - g M = g k + 2 erreicht. Da- 
mit ist. g ist KQ-FPCI bzgl. Z, weil n(s + ) = 0, n(g~) = 0 ^ p =? /(jy) gemafi Definition 
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8.6. 

Zur Mpnotonie von T. Es ist zu zeigen, dafi T in Schritt 2 und 4 des Algorithmus- 
Verkleinert wird: 

U(g+) > Q 4 T(g*+ l ) < T(g k ). (9,12) 

n(<T) > 0 =»T(^ +2 )< : T(5* +1 ), (9.13) 

Die linke Seite wird imfolgenden jeweils vorausgesetzt. Nach Definition gilt nun 

(y + -XVW))'(y + -X^U7*>) <n(gjcc?m und 
(j/_ - X'_/3(^ +1 ))'(2/_ - XL/?(<? fc+1 ))> n(<?_)^ 2 (^). 

V_(5 A+2 ) und Y + (<7 fc+1 ) sind offenbar positiv semidefinit und mit (9.2) gilt (setze in 
ffilfssatz 9.1 0° = 2* bzw. 5 fc+2 und ^ = 

(W) - v_G?* +l ))- 1 = W) + v.(s*+?), 
(in( 9+ , + v+^jji- 1 = I n{9+) - v^y* 1 ). 

Daher folgt auch 

rl := & + - + V+te*)}- 1 ^ - X + /?(3 fc )); < n(^)ca 2 ( 5 fc }, (9.14) 

> n(r jcc*{g k + l ). (9.15): 

Mit diesen Abschatzungen konnen (9.12) und (9.13) gezeigt werdea. Dazu werden wei- 
t^hin fblge^ 



ni ^v^^ n r )c < (9.17) 

Beweis von (9,16): Zur Vorbereitung zeige ich durch vollstandige Induktion fiber m 
fur 6 > 0, m € 2?V mit a := c ^ 1: 

Vmi,m2 € jBVq • ™i + m 2 = ra (9.18) 

unter der Voraussetzung 

7^-<l- (919) 
Fur m = mi = 1 folgt (9.18) aus c> 1, fur m = m 2 = 1 folgt es aus 



l- 7 _ = ^_ >->(-) . _ (9.20) 



am 6 + tn 
6 +mc 6 + roc " c 



Nun gelte (9.18) fur in. = / - 1 und beliebige 6 > 0 mit (9.19). Sei /i + / 2 = Wenn 
/ 2 = J, dann gilt (9.18) fur m = i wegen (9.20). Sei daher nun I t > 1, 5^ < 1. Damit ist 
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auch ((H . I) ^ (( , l) = (5+n+^ < 1, so dafi die Induktionsvoraussetzung angewendet werden 
kann: 

< (l ~ Wl) i}~ (HlWH)e) = 
— T - KzilS _ a(frfi)+Qfl-i)c ., Xt-iW _ 

(da a ? = ac — a) 

- 1 (<-l)q(c-l)(WfrQ(eH-0(Hfc) _ 

1 ~ (6*l+(f-l)$6+ic)(H/) ~ 

" x t+tc (64-l+(f-l)5)(6^c)(W) 

(da 6 + ^6+ l + (Z^ l)bj 

^ 1 6-Hc Hie 1 *6+/c ^* u ' 

Um (9;16) zu zeigeny sei nun zuerst rnl^* 1 ).^!!:* s ! — ! fc„Eto. iflft -tj;^**- 1 ) > rcfs>) > P + |> 
also unfet Verw^du^ mit m == 1%== ^(^^-m^n^), [p+c— 1]^ 

| ^ n|/) - 1, wqbei (949) erfiillt Ut, dejaa ^ = ^t)2 p ^x < Ji 

= E (i-i- 1 n - < 

< 1 _ ; t {c-lH^> n( g *+')-p-l 
^ n (9*)-p-l+n(s+)<: - n(s*)-p-l+n(s+)c- 

Also gilt in BiesemFaB (9.16). 1st n(^ +1 ) <p + c^-l, so ist 



Pn(s fe ) W n(? t )-p-l + »(5 + )c 



wegen (9.20). 

Beweis von (9.17): Falls n(p* +2 ) <p + c, dann ist 

"(g^-p- l-ttCfl'fc i _ (C- l)n(g-) < Q 

n( ff *+ 2 )-p-l n(/+ 2 )-p-l " Pn&v)' 



Sei also n(/ +1 ) > n($* +2 ) > p + c. Es folgt 

= ""ft" f , _ iz±)> ( , \ 
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Nun gilt fur 0 < b < 1, m € IN durch vollstandige Induktion (1 - b) m > 1 - bm: Fur 
m = 1 gilt ,.=". Induktionsschritt: 

(1 - by* = (1 - b)(l ~ b) m ~ l > (1 - 6)(1 - b{m - 1)) = l-mft+(m- 1)6? > 1 -mb. 
Mit 6 = n{gt Z7f_ p _ v m = n(5") folgt 



Beweis von (9.12): Setzt man = g k uad g 1 = s** 1 in Hilfssatz 9.1, so ist (9.3) 
gleichbedeutend zu 

+ m ^r l (Vf ~ ^MMit&y + v + ( 5 fc ))- 1 (y + - x + /% fc )>. 

Unter Verwendurig voii (9.14) und (9.16) erhalt man 

= ^ V+M-P-l ^ P n(^) J* (5 ) + rl ( 5 uWl f + - 
< [ ' n( g Hi)^-l *W.)J ? (5 ) < 0. 

Beweis von (9*13): Setzt man g° = g k + 2 und 5 1 = g*+ l in Hilfssatz 9.1, so ist (9:4) 
gleichbedeutend zu 

-n t ^ l ) -p-t(g--X-)3(g t+1 )) / (W) - v^ 1 ))-^ - X-P(9 k+l )). 

Unter Verwendung von (9.15) und (9.17) erhalt man 
Damit ist alles gezeigt. 



10 Analyse von Beispieldatensatzen 

Um die. Arbeitsweise der Verfahren zu illustrieren, wird in diesem Abschnitt das Er- 
gebnis der Analyse zweier Datens&tze vorgestellt. Fiir die Berechnung der Fixpunictclu- 
steranalyse wurde Algorithmic 2 aus Abschnitt 9 beginnend mit zufalligen Punktkori- 
stellationen 140 mai mit c = 10 durchgerechnet. Eine genaue Beschreibung des Ver- 
falirens findet sich in Abschnitt 15.1.1. Weiter >vurde der Mischmodell-ML-Schatzer aus 
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Abschhitt 3.3 berechnet. Zur Erraittlung einer Approximation des globalen Maximums 
der LogUkelihood-Funktion pro vorgegebeher Clusterzahl wuirde das Maximum aus 20 
Durchlaufen des, dort vorgestellten EM-Algorithmus ermittelt. Aufierdem wurde der Fi- 
xed Partiticri-ML-Schatzer aus Abschnitt 3.4 berechnet, indem der dortige Algorithmus 
50 mal pro vqrgegebener Clusterzahl durchgefuhrt wurde. Die ML~Verfahren wurden 
rait vorgegebener Clusterzahl 1-5 durchgerechnet. Die Schatzung der Clusterzahl wurde 
wie in den Abschnitteii 3.3 und 3.4 beschrieben durchgefuhrt; Eine genauere Beschrei- 
bung der Verfahren findet sich in Abschnitt, 15, wobei in deii Simulationen aber weniger 
Iteratiorien durchgefuhrt wurden als hier. 

10,1 Telefondateri 

Hierbei handelt es sich urn den hereits; in der Einleitung diskutierten E)atensatz aus 
Rousseeuw und Lerby (1988). Zur Orientierung: Der von Rousseeuw urid Leroy vorge- 
sehlagene robuste Least Median of Squares-Schatzer, der nur die Jahre anpafit, in denen 
die Telefonate gezahlt wurden, ergibt Plms = (0.115;, —5.610). 

In 140 Durchlaufen der Fixpunktclusteranalyse wurden 4 FPC gefunden: 
115 mal wurde der Gesamtdatensatz als KQ-FPCV (g l = . . ,1)) gefunden. Die dazu 
gehorigen Schatzer sind die nprmalea KQ-Schatzer: 

p{2{g 1 )) = (0,504, -26.006),. ^(Z^ 1 )) = 31.611. 

22 mal wurde ein FPC gefunden, der die Punkte 1-14 und 22-24 enthalt, d.h. die Jahre 
bis 1963 und ab 1971. Die Parameterschatzer: 

0(Z(g 2 )) = (0,111, -5.260), a 2 {Z{g 2 )) = 0.0213. 

Einmal wurde ein FPC gefunden, der die Punkte 1-13 und 22-24 enthalt, d.h. d^m zweiten 
FPC ohne den Wert fur 1963 entspribht. Die Parameterschatzer: 

0{Z{g 3 )) = (0.108, -5,164), **f% 3 )) = 0.0094 

Zweimal wurde ein FPC gefunden, der die Punkte il und 16-20, d.h. die Jahre 1960 und 
1965-69 enthalt. Die Parameterschatzer: 

PW)) = (2150, -127.65), a 2 {Z(g 4 )) = 0.178; 

Auffallig ist. dafi der Gesamtdatensatz extreni haufig gefunden wurde. Das ist nach mei- 
ner Erfahrung fast iminer der Fall: bei grofieren Datensatzen fallt normalerweise der eine 
oder andere Punkt heraus. Dafiir gibt es eineii einfachen Grund: Wenn der Algorithmus 
mit Punkten gestartet wird, die nicht zurn selben Cluster gehdren, wird normalerweise 
eine recht hohe Storskaia geschatzt. Die Schatzung fiir tr 2 ist schliefilich, wie in Abschnitt 
8.2 diskutiert, nicht robust. Dadurch wird der ganze oder ein grofier Teil des Daterisatzes 
nicht als Ausreifier klassifiziert. Wird dann die Ausreifieridentifikation auf der Basis des 
gesamten Daterisatzes berechnet, ist es kaum rhdglich, Mitglieder unterschiedlicher vbr- 
handener Cluster in Ausreifier und Nichtausreifier aufzuteilen. In vielen Datensatzen wird 
aufgrund marigelnder Robustheit der Parameterschatzer gar kein Ausreifier gefunden, so 
dafi der Gesamtdatensatz ein KQ-FPC ist. Dieser Effekt mufi bei der Interpretation des 
Ergebnisses einer Fixpunktclusteranalyse bekannt sein. 
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Des weiteren enthalt Cluster 3 alle „gut$n" Daten im Sinne der robusten Statistic, 
d.h. die Daten, bei denen die Telefongesprache und nicht die Minuten gezahlt wurden. 
Man kann dem Resultat entnehraen. daft das Jahr 1963. in welchem ja iiberwiegend 
„korrekt" gcrechnet wurde, ein strittiger Punkt ist: Es taucht nur in dustier 2 auf. 

Der vierte: Cluster enthalt die Jahre, in denen die Minuten gez&hlt wurden, auBer 
1964: Dieses Jahr veruisacht im wesentlichen den bptischen Eindruck, es konrie sich hier 
urn einen nichtUnearen Zusammenhang handeln. Die dazugehorige Regressionsgerade 
geht fast genau durch den Punkt von 1960, der daher auch dazugehort: Dafur taucht das. 
Jahr 1970 nur in dem Cluster auf, der dem Gesamtdatensatz entspricht. 

Das MischmodeU~ML-Verfahren entscheidet sich mit Schwarz 5 Kriterium (3 A) fur 
die Anzahl von yier Clustera. Das AIC (3.4) liatte sogar ftinf Cluster geschatzt, Die vier 
Cluster sehen folgendermafien aus: 

Die Parameterschatzer fur den ersten Cluster: 

ft = (0.108, -5.162), »l - 0.0086. 

Die geschatzten Zugehorigkeitswahrscheinlichkeiten e,-.i fiar die Punkte i = 1-9, 11 und 
13 sowie 22-24 sind fast 1, e l0| i = 0.602. Fur die restlichen Punkte (d.h. auch fur i = 12, 
das Jahr 1961) gilt € t| i « 0. 

Die Parameterschatzer fiir den zweiten Cluster: 

$2 ■= (1.860, -107.14), ^ = 0.00002. 

Die geschatzten Zugehorigkeitswahrscheinlichkeiten fur die Punkte % = 15 und 20 
(d.h. 1964 und 1969) sind 1, alle anderen fast 0, 
Die Parameterschatzer fiir den dritten Cluster: 

#> = (0,312, -17.536), af = 0:000Q2. 

Die geschatzten ZugehorigkeitswaHrschei nlichkeiten fiir die Punkte i = 12, 14 und 21 
sind fast 1> alle anderen fast 0: 

Die Parjunef ierschatzer fiir den vierten Cluster: 

& = (1-889, -110.45), af. = 0.023. 

Die geschatzten Zugehorigkeitiswahrscheinlichkeiten e t ; 4 fiir die Punkte i = 16— 19 (d.h. 
1965-1968) sind 1, alle anderen fast 0 bis auf € 10 ,4 = 0.398. 

Offehbar wird erkannt , daB die Mehrheit der Daten gut zusammenpafit. Per ent- 
sprechende Cluster 1 lafit aber das Jahr 1961 heraus. Da die restlichen Werte nicht gut 
von einer gemeinsamen Gerade angepaBt, werden konnen, werden. sie in winzige Cluster 
aufgeteilt. 

Beim Fixed Partitiqn-ML-Verfahren wird mit dem modifizierten BIC (3.11) auf zwei 
Cluster entschied^n. Cluster 1 enthalt die Punkte 1-13 und 22-24, die Parameterschatzer 
entsprechen dem dritten FPC. Cluster 2 enth&lt die restlichen Punkte 14-21. Die Para- 
meterschatzer: 

& = (0.963, -51.487), a\ = 43.177. 

Der erste Cluster enthalt also alle „guten Daten". Im zweiten Cluster werden die restli- 
chen Punkte undifferenziert zusammengefafit. Das fiihrt zu einer schlechten Anpassung, 
gemessen durch of. 
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10.2 Artifizieller Datensatz 

Der in Abbildung 8 gezeigte Datensatz wuirde folgehdermafien erzeugt: Punkte 1-50 wur- 
den unabhangig generiert entsprechend 

£(x)=M( 0i i)®Su y = *% + e, A = (1,0), 

wobei £(c) = jV(p,o.oi) hier uhd auch fur die anderen Punkte gilt. Die; Punkte 51-98 
wurden unabhangig generiert entsprechend 

£(x)=A^o,i)«^ 5 V = + e, &=:(-l,0}. 

Die Punkte 99 und 10C wurden unabhangig: generiert entsprechend 

C(x) = A^)®<5i, y = e, 

d.b. of = <rf = erf = 0.0L Der Datensatz soil ein Beispiel fur ein deutliches Muster 
linearer Cluster mit Ausreifiern sein. In dieseiti Datensatz wurden acht Eixpunktcluster 
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Abbildung 8: Artifizieller Datensatz 

gefunden. Cluster 1 wurde 60 mal gefunden and ist wieder der gesamte Datensatz, die 
Parameterschatzer , sind 

W(g 1 )) = (-0.058, -0.135), a 2 (Z(g 1 )) = 1.163. 

Cluster 2 wurde 48 mal gefunden und entspricht dem gesamten Datensatz bis auf Punkt 
14. Das ist der Punkt links unten mit dem minimalen y. Die Parameterschatzer sind 



PW)) = (-0.147,-0.090), a 2 (Z( 5 2 )) = 1.044. 
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Cluster 3 wtirde 12 ma! gefunden und enthalt 64 Purtkte, namlich die Punkte 51-98 und 
16 weitere Punkte aus 1-50. In Abbildung 8 ist der Schnitt der Cluster 3 und 5, der aile 
diese Punkte enthalt j voll ausgefiillt. Die Parameterschatzer sind 

/?(Z( ff 3 )).= (--1.003, -0.007), a 2 (Z( S 3 )) = 0.028. 

Cluster 4 wurde achtmal gefunden und enthalt 62 Punkte, namlich die Punkte 51-98 und 
14 weitere Punkte aus 1-50. Br ist Teilmenge von Cluster 3. Die Parameterschatzer sind 

/J(Zfg 4 )) = (-1.009, 0.010),. o%&&)) = 0.021. 

Cluster 5 wurde sechshial gefunden und enthalt 53 Punkte, namlich die Punkte 1-50 und 
drei weitere Punkte aus 51-98. Diese Punkte; sind in Abbildung 8 ebenfalls voll ausgefulli 
Die Parameterschatzer sind 

j8(Z( s 5 )) = (0.998, -0.001), a 2 (Z(/)) = 0.013. 

Cluster 6 wurde viermal gefunden und: enthalt 55 Punkte, namlich die 53, Punkte: aus 
Cluster 5 und zwei weitere Punkte aus 51-98. Die Parameterschatzer sind 

0{Z(g Q )) = (0.998, $014),, a 2 (Z(g 6 )) = 0,018. 

Cluster 7 wurde einiml gefunden und enthalt 63 Punkte, namlich die 62 Punkte aus 
Cluster 4 und einefi wcitereri Pimkt aus 1-50. Die Parameterschatzer sind 

0(Z(g 7 )) = (-1.006,0.002), cr 2 (Z(5 7 )) = 0.025. 

Cluster 8 wurde einmai gefunden und enthalt 76 Punkte, namlich die 64 Punkte aus 
Cluster 3 und zwolf weitere Punkte aus 1-50. Die Parameterschatzer sind 

m(9*)) = (-0^854; -0.120), <r^(Z(/)) = 0.243. 

Neben dem bereits erwahnten Phanomen, dafi am hSufigsten der Gesamtdatensatz ge- 
fun<^n wirdy fa^ ins Auge. Die Analyse bririgt viel mehr 

Cluster, als deu tlich ira Datensatz zu sehen sind. Das ist im wesentlichen darauf zuruck- 
zufiihren, dafi einige Cluster in mehreren ,,Varianten" gefunden werden. Die Ausgabe 
ailer Cluster kann zwar sehr unubersichtlich sein, vereinfacht sicH jedoch, wenn man 
sieht, dafi einige Cluster fast identisch sind, namlich 

• Cluster 1 und 2 (Gesamtdatensatz), 

• Cluster 3, 4 und 7 und mit gutem Willen 8 (zweiter Modellcluster) 

• Cluster 5 und 6 {erster Modellcluster). 

Urn sich diese, Ubersicht zu verschaffen, kann die Ausgabe der Cluster urn eine Tabelle 
erganzt werden, in der man sehen kann, wie haufig sie gefunden wurden und wievieie 
Punkte in ihrer jeweiligen Schnittmenge iiegen. In diesem Beispiel sieht das folgerider- 
mafien aus: 
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Im Falle einer viel zii uriiibersichtlichen Ausgabe konnte man mit dieser Tabelle - inter- 
pretiert als Ahnlichkeitstabelle. - noch eine angemessene Clusteranalyse rechnen. Wenn 
man an einer Parameterschatzung interessiert ist, kann man dafur die Cluster wahlen, 
die aus einer Gruppe von ahnlichen Clustern am haufigsten gefunden wurden, d.h. hier 
Cluster 3 und 5. 

Die Masse an Clustern ist Polge davon, dafi sich die Cluster ubersehneiden konnen. 
Das hat den Vorteil, dafi man detaUlierte Infer mationen fiber die einzelnen Punkte be- 
kommt. Zum Beispiel ist zu sehen, welche Punkte sich von beiden Modellen gut anpassen 
(assen, sofern man die Ausgabe so gedeutet hat, dafi es im wesentlichen zwei Modelle 
gibt. Weiterhin ist zu sehen, daB die Ausreifier 99 und 10Q nur in den Gesaratdatensatz- 
Clustern sind. Der Unterschied zwischen den Clustern 1 und 2 ist Punkt 14, der in 
gewissem Sinne auch als Ausreifier interpretiert werden kann. Andererseits sorgt die 
Uberschneidung zwischen den Clustern dafur, dafi die Cluster jeweils Punkte enthalteh, 
die zu unterschiedlichen Modellkomponenten gehoren. Das sorgt zumindest im Falle der 
zweiten Modellkomponente fur eine deutliche Uberschatzung von of. Wie gut of in die- 
sem Fall geschatzt werden konnte, zeigen die ML-Verfahren. Der zweite Modellcluster 
vyird allerdmgs voir alien Verfahfen grofier eingeschatzt als der erste. 

Das Mischmodell-MLrVerfaliren schatzt mit Schwarz' Kriterium wie mit dem AIC 
die Zahl von drei Clustern. 

Cluster I hat einen Anteil von % = 0.450 and Gesamtdatensatz. Die Parameterschatzun- 
gen sind 

fa = (1.000, 0.002), af = 0.010. 
Cluster 2 hat einen Anteil von e 2 = 0.508: Die Parameterschatzungen sind 

02 = (-1.014,0.004), a\ = 0.010. 

Cluster 3 hat eineh Anteil von e 3 = 0.043. Die Parameterschatzungen sind 

4 = (0.047, -0.233), a\ = 0.001. 

Die geschatzten Wahrscheinlichkeiten fur Punkt 99 und 100, zu diesem Cluster zu gehoren, 
sind 1. Aufierdem ist fiir Punkt 13 noch e 13r 3 = 0.536. Einige weitere Punkte haben ei- 
ne geschatzte Wahrscheinlichkeit zwischen 0.2 und 0.3; a\ entspricht der vorgegebenen 
untereri Schranke fiir die Storvarianz (siehe Abschnitt 3.3). Diese, Schranke hat mogli- 
cherweise grofien Einflufi darauf, wie der kleinste Cluster konkret aussieht. In diesem Fall 
besteht er ja im wesentlichen aus zwei Punkten. 
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Da es nur zwei Ausreifier gibt, konnen sie durch eine gemeinsame Gerade angepaCt 
werden. Dadurck macht die drei-Ciuster-Losuag eineh verniinftigen Eindruck. Mehr Aust 
reiBer wurden vermutHch zu mehr Clustern fiihren und eyentuell weitere Punkte aus den 
anderen Clustern herausschlagen. 

Das Fixed Partition-MIryerfaliren schatzt mit dem modifizierten BIG ebenfalls drei 
Cluster: 

Cluster 1 enthalt die Punkte 1-50 aufier 1, 5, 10, 17. 19 und 39/Die P^rameterschatzungen 
sind 

ft = (1.000, 0.004), d\ = 0.011. 

Cluster 2 .enthalt die Punkte 51-98 auBer 71 sowie die Punkte 1, 5, 17 und 39. Die 
Paranieterschatzungen sind 

& = (-1.014, 0.001), a\ = 0.010. 

Cluster 3 enthalt die Punkte 10, 19 : 71, 99 und 100. Die Parametersehatzungen sind 

A = (Q.042., -0.214), ^ = 0.00002, 

Urn zu vierhindern, dafi die Likelihood degeneriert (siehe Abschnitt 3.4), war eine Min- 
destclustergroBe von 4 yorgegebjen. In diesem Fall wurde alsb eine vernunftige drei- 
Cluster-Losimg bereckiiet, weil es unter den Punkten 1-98 noch drei Punkte gab, die 
mit den AusreiBerh etwa auf einer Gerade lagen, Hatte es keirien solchen Punkt gege- 
ben, ware die Behandhng der AusreiBer ein Problem gewesen. Aber schon hier lafit siqh 
anhand der Ausgabe des Verfahrehs nicht feststellen, dafi die Punkte 99 und 100 von 
anderer Qualitat sind als die Punkte 10, 19 und 71. Bei der Analyse der Residuen aller 
Punkte von alien Clustern wiirde das allerdings auffallen. 
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Teil III 

Fixpunktclusterindikatoren in 
speziellen Modellen 

11 Hilfsresxiltate 

Ura die Ubersicht dariiber zu gewahrleisteii. v/elche Resultate worauf aufbauen, babe ich 
diesen Abschnitt an den Anfang von Teil III gestellt. Die wesentlichen Resultate linden 
sich erst in den Abschriitten 12 und 13. Fiir cias Verstaridnis der grundlegenden Ideeri* die 
dort verwendet werden^ werden aus diesem Absqhnitt nur die Bezeichnungen zu Beginn 
des Unterabschnitts ll2 benotigt. 



11. 1 Eigenschaften der Fixpunktcluster-Parameterfunktion 

Fur die Rechmmg mil den Funktionalen, die in Definition 8.3 und Bemerkung 8.4 vor- 
kommen, werden folgende Hilfssatze benotigt: 



Hilfssatz 11.1 SeiR eih Mafi du/(iR? +1 > 






J y 2 dR{x\y) < oo, J 


\\x\fdRfaii?) < op. 


(HI) 


Darin gilt fiir i = 1, . ., ,p + 1: 






jLj(y- x >t)>dR(x,y) = 

1st darubpThmaus 


-2 f xity - x't)dR(x;y). 
invertierbar, 


(112) 
(113) 


so ut 

argrain J(y - x'ffidRfcy) = j 


j xx'dR(x } y)j j xydR{x,y) 




existent: und eindeutig. 







Beweis: Nach Korollar 16.3 aus Bauer (1990) darf fiir eine Funktion 

: = J f(t,uj)dfi(u) % x etj offen C IR* 

partielle Differentiation nach U und Integration vert aiischt werden, wenn eine ^-integrierbare. 
Funktion j auf Q (dem MaBraum. auf dem \x definiert ist) existiert. so dafi 

W JM < j(u>)y(t,u) e{/xfi. (11.4) 
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Aufierdem mufl u h4 /(*, w) fur jedes t ^-integrierbar und 1 1-> /(if, w) fur beliebiges w 
nach jedem £,•■ partiell differenzierbar sein. 

Fur fo(t, x, y) := (y — .jp'i) 2 gilt in einer Umgebung eines beliebigen 6 6 XRf* 1 , d.h. 
fiir <emite>0: 



d 



= j-2x,(y- i'tj|< ||xf+ y> + 2||*jj 2 (||0|| + e). 



Letzteres ist nach Voraussetzung (11.1) jR-ihiegrierbar; / 0 ist nach jedern partiell dif- 
ferenzierbar und nach (11.1) fur gegebenes i integrierbar. Also folgt. (11.2). Sei 

0(R):= [J xx'dR(x,y)] * J xydR&yi h{t) := J(y- x'tfdR(x;, y). 

p(R) existiert hacli Vcraussetzung (llt3). Sell 9 lokales Minimum von h sein, rriufi fur 
i - l,,..,p+l 



± jly- x 'tfdR{^y) ^ ^ = -2 
d.i.; zusammengefaBt fiir i =■ 1,.. . ^ p,+ 1 

J" = Ji^dR^ y)9 

gelten; Das ist Equivalent z # = Fm f f i: (i r x x y) :—Xi(y- x't) gilt 

Letzteres ist rait p|p i?-integrierbar, so dafi die Hessesche Matnx ify von 7t wie folgt 
aussieht; 

Hh(t} kann keine? negativen Eigenwerte habenv da / v f xx f vdR{x^j) •'->: (3 fiir beliebiges 
V £ 2R P+1 : Weiter ist ^(tj nach Voraussetzung (11.3) invertierbar tind damit iiberall 
ppsitiv de^i t . Also ist eindeutiges lokales Minimum yon h xiud h fet kpnyex* Dahex 
ist ${K) audi eiiideutiges globales Minimum. 



Hilfssatz 11.2 JEsgeUettdie Bemchntmgwyori B IR^ xlR*, 

Weiter sei 



f tfdQ fay) < ,00, f\\x\\ 2 dQ(x r y) < co, 
Q{(y-x^) 2 ==c^}=0 V(e,s 2 )€M, 
Q{(y- x'fl) 2 < cs 2 } > 0 V(0, s 2 ) € M, 
fxz'ge^ix. y)dQ(x y y) invertierbar ^{9, s 2 ) 6 M. 

£ann M< die Einschrankuhg von f (definiert gemafi (8.9)) auf M stetig. 



(11.5) 
(11.6) 
(11.7) 
(11.8) 
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Beweis: Sei zunachst h erne Abbildurig von JR** 2 nach IR, a < b <E R,d € BP* 2 . Ich 
zeige 

/{a, 6, d) := j h(z)l{a < z'd < b)dQ{z) ist stetig in (a, b, d) (11.9) 
unter. den Voraussetzungeri 

Q{z .a = z'd) = Q{z :b = z'd} = 0, J \h{z)\dQ(z) < oo. 
Beweis yon; (11.9): Es gilt wegen des Satzes fur majorisierte Konvergenz 

lim (a n , b n ,dn) = '(<»•, &,.«Q =t jE^K A^n) = K«> M)i denn 
Vn : l(o», % d n ) < / Hz) \dQ\z) < oo und 
Hm ft(z)l(a„ < 2'd n < 6» j = h{z)l{a < z'd < 6) Vz mit a # z'd # 6, also 
Q{z : A(*)l(*» < z'd„.< b„) -4 fc(*)l(a < z'd <6)} = 1. 

Also gilt (11.9); 

Sei nun (fl, s 2 ) iminer aus M, und 

Hilfssatz 11.1 bringt nut dR = g^dQ, wobei.mit (11.5) und (11.8) die Voraussetzungen 
(11.1) und (11.3) erffillt sind: 

M t 8 2 ) = (J:xx , 9wte,y)dQ{x,y)j~ 1 f xyg $ A^ y)dQ{x, y), (1110) 
Sei nun fur i,j = 1... .,p + 1 

%{a,b,d) :=fXiXjl[a < {x',y)d < b)dQ{x,y), 

* 2 ) fxiZjdeAwW&y) = % [-v^^M-^ i)'l • 

Ijj; ist stetig in (9, s 2 ), da wegen 1*^1 ^ IMP. (V 1 - 5 ) und (11.6) die Voraussetzungen 
fur (11.9) erfiillt sind und damit ifj stetig wa } b,d ist. Damit ist aber auch 



^'S9^(i,?/)dQ(2:,»)) 



kompOnentenweise stetig in (0, s 2 ), da die Komponehten einer inversen Matrix im Fal- 
le der in. (11.8) vorausgesetzten Existenz Quotienten von Summen von Produkten der 
Komponenten der zu invertierenden Matrix, also stetige Funktionen dieser Komponen- 
ten (d.h. der /,j(0,s 2 )) sind. Weiter liefert (119) fur t = 1, . . . ,p + 1 die Stetigkeit in 
(9, s 2 ) von Jxiyg 9 ,Ax,y)dQ(x,y), da f \xiy\dQ(x,y) < oo mit (11.5), so dafi mit (11.6) 
wieder die Voraussetzungen erfiillt sind. Zusammehgesetzt haben wir nun die Stetigkeit 
von p nach (11.10). 

VVeiterhin ist auch a 2 definiert in (8.7) stetig: Der Nenner /0s,»'(x> y)dQ(x,y) ist 
in (11.7) als positiv vorausgesetzt und mit (11.9) stetig in (0,s 2 ). Nun fehlt noch die 
Stetigkeit des Zahlers. Es gilt 

m(/3 0) x, y) =(y - x%) 2 = y 2 - 2yx% + (*7?o) 2 < y 2 + \\0o\\(y 2 + ||x 2 ||) + 
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also Jm{(3 () , x t y)dQ(x.,y) < do mit(11.5). Also ist mit (11.9) fur gegebenes 

mi(/M,* 2 ) •= f m(A),x,y)^. 4 ^Q(x,y) 
stetig in % s 2 ). Weiter ist. mj audi stetig in P 0 - Fur -+n-»oo A> gilt: 

|m 1 (/? n ^,a -mi(A^^ 2 )| = |/[(» - *%) 2 - for = 

= I / &S**fc 'IVBmA* vWQfc f 5 1. ^ 

(wobei J? := (fr^i,...^! 
< /(Pllll^ll + V^)IM|||# - ») + / Nl a (p + l) 2 .^ax +i |^irf<5(x, y) -4 0 

wegen max|6y| -4 0 und Voraussetzung (11.5). Der Zahler aus (8.7) ist nun gleich 
miW,s?ly$, s 2 ), also, nachdem die Stetigkeit vori /? bereits gezeigt ist, ebenfatls stetig 
in ($, $*). Damit ist auch a 2 und spmit / stetig auf M. 

11.2 Abgeschnittene Normalverteilungen 

Abgeschnittene Normalverteilungen tauchen immer auf, wenn ein normalverteilter Term 
mit einer der fiir die Fixpunktclusteranalyse benotigten Indikatorfunktionen g multipli- 
ziert wird. Fiir die Ergebnisse in den folgenden Abschnitten werden einige Hilfssatze 
iiber das Verhalten yoa Erwartungswert und Varianz abgeschnittener Normalverteilun- 
gen benotigt. Es gelten fiir den Rest der Arbeit folgende Bezeichmmgen (u € 2R, s > 0): 

P[U,S) ,- JlUy-ufKfWlyX - .*(«+»)-*(«-*)' 
y W' S l — Jl« 9 -u) l <*W(s) 

Offenbar gilt 

£(-B,s) = -£?(« i s), V r (-u,s) = K(u, s), £^(-u,s)=JE t (tt^. (ll.ll) 
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Hilifssatz 11.3 

&E(ui s) = [E{u, s) - «)£(«, s) +sE + (u,s), 
$E(u, 8) = (it - E{u, s))E + {u, s) - sE{u, s), 
£E + {u,s) = (E{u,s) - u)E+{u,s) + sE(u, s), 

m°) = 1 + ^=^^0t^ - E{u, e)> = (11.12) 
= 1 + [u - E(u,s)]E(u, s)- *EjVi*), (11.13) 

jfcV(u, s\ = E(u, s)[l - u? - s 2 + 3uE(u, s) - SsE\(n.,.s) - 2£ 2 (u, s)] + 2«*E + («,.*), 
^V(tt,» = 2sE(u, $)[E(it, s) - v] + uE+fii, $j[u - E(u, s)] + (s 2 - l)E+ (it, $)+ 
+£+(«, $)[sE+{ii, s) + 2E{u, sf - 2iiE(u, s)]. 



Beweis: Dieersten vier Gleichungen ergeben sich mit Hilfe von 

■§z[?{M - s) - <p(u + «)] = -(« - s)<p(u - 5) 4- (« + s)tp{u 4- s) = 

= ($(«.+ 5) - *(« - s)](sJS? + («, s) - «£(«, s)], 
Jj[£(fc - s) — <p(u + '«)] = [u - s)<p{u - s) + (u + «)v(u + s) = 
= [$(« + s) - *(« - s)J[w£' + («, s) - s)], 
- s) + ¥>(t* + «)] = -(u - s)tp(u - s) - (u + s)yj(u + s) = 
= [$(« + *) - *(« - s)l[s£(tt,s) - u£+(u. s)], 
§fe(s* - «)+¥>(« + 5)1= [$(« + s) - *(«,- ?)][«£(«, s) - sE + (u, s% 
gj(*(ti + s) - $(« - s)] = v?(« + s) — V?(« — "*) — —[*(« + *)— $(t* - s)]E(u, $), 
^[$(« + s) - $(« - 5)] = vj(« + s) +><p{ii -s) = [$(« + «) - $(u— s)]E + (« s s). 

Beweis vori (11.12): Fur den Z&hler gilt 

x I * (y- t(u, *)'). 2 fe(yj<fy = 
= / (f - £(«> s))y<p{y)dy - E{u, s) (y- E(u, s))tp(y)dy. 
Das letzte Integral ist 0 nach Definition von E(u, s). Mit partieller Integration: 
2 = v{y)dy - [(y - E(u, s^y))"!' = 

Ju — 3 ' 

~ + s) — $(u— s) + (u - s)tp(u — s) - (u.+ $)<p(u + $)+ 
+E(u, 3)<p(u + s) — E(u % s)<p(u - s), 

Der Nenner ist fZ*?<p{y)dy = $(u + s) - $(u - *) f .womit sich (11.12) ergibt. (11.13) 
folgt aus (11.12). 
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Die letzten beiden Gleichungen folgen mit (11.13) und den ersten vier Gleichungen, 
wbbei 

£v(u, s) = (u - E(u, s)){(E(u,s) - u)£(«, s) + sE+(u, s)]+ 
+E(u, $)[l - (£(«, s) - u)E{u, s) - sE+(u, s))- 
—s[(E(u v s) — u)E+{u, s) + sE{u, $)], 
|l% s) = {u - E(%, s)) [(« - E(% s))E + (u, s}- sE(u t s)}+ ■ 
+E(vJ) [$E(u.. s) - (u - E(u, s))E+(u, s)] - 
s) - s [u(E(ti, s)- (s + E+{u, s))E+(u, s)] = 
= 2sE(u,sf+ tt 5 E + (ti,5) + s 2 E+{u.. s) + aE+(UyS)H : 
+2E(u,s) 2 E+(u, s) - 2suE{u, s) - 3uE+{u, s)E(ii, s) - E+(u, s). 



Hilfssatz 11.4 Far s > 0 ist f'(u) < 0 mit /(«) := E(u, $) - u und 

liin fCu) = - s. 



Beweis: 

/<«>= « =|S^-„=!$3g^ mm 

Beweis yon (11,14): Sei X tt eihe Zufal Isvariable mit transformierter abgeschnittener Nor- 
mal vjerteilung,d.h. mit Rieniami-Dichte 

Dann ist /(tt) = EJT U wegen (11.15). Es gilt 

»^ni^-Hi <i) 

= + < l ira + e + = 

e->oo 

Also koavergiert X u stochastisch gegen -s. Da < s, gilt < $ 2 Vti und damit 
nach dem Korollar zu Satz 25.12 aus Billingsley (1986) auch lim EX U = -5. 
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Hilfssatz 11.5 Furs > 0 gilt 

£ + (0, s) > 0 = £((),$), 

5 < E(Uy$) < U + Si 

u > 0 =f Q < ^) < « < 0 =^ w < 2?(«j s) < 0. 
u > 0 =^ E(ii v s): <%fy, 5) < JS(u, s?) + 
%Ekiu,s\ < 0. 



Beweis: Die erste Gleichung urid J5 + (^5) > |i£(&$)| > E(xi,s) sind nach Definition 
War. 

U ~ $ < E(Uy$) » jErAr(X|w:- 5 < X < ?i + S) < tt -f 5, 

U> P => - 5) > + 5) ^ 25(ti, $) > 0. 

5) < u folgt fur « > 0 aus £(0, s) = 0 urid Hilfssatz 11.4, die emsprechende Aussage! 
fur u < 0 gilt wegen (11.11). 

Vri > 0 : ^(tt + i)' s= iaf{0(f) : u — s < f < u -f 5} 

Die vierte Gleichung aus Hilfssatz 11.3 und £^(~ii, 5) = £+(**> 5) liefern %- $ E+(u, $) < 6, 
denn mit dem bisher Gezeigten gilt 

E+{u t s)> E(u,s) > 0 n f« > 0 E f (u, s) + $> E(n r s) + $>u>0. 



Hilfssatz 11.6 ist streng rrwftqtbh fqllend in s > 0 falls u > 0 bztv. streng 

monoton sieigend falls xt < 0. is£ /ilr s > 0 streng monoton steigend in u > 0 

tmd \.0mg monotqn faUend m u < Q, 



Beweis: Sei $1 > $2 > 0. « > 0. Dann gilt wegen (11.15) folgende Aquivalenz: 

ch; / dt[vv?(v +'ti)p(t +n) — + u)ip(t + «)] < 0. 
25(51, s 2 )= [ ^ dv f 9 ' dt(v - t)(p(v + u)<p(t + u)+ 
+ eft; /** dt(v - 1?)<p[v + u)<p(t + u)+ 
+ ['* dv f 3 dt(v - t)<p{v + u)tp(t + u) = 
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(Der letzte Summand ist aus Symmetriegriinden 0, im ersten Summanden Substitution 
v -» — v.) 

sb- /" dv P dt[(-v - t)<p(-v + u) + (v- t)tp(v + u)](p{t + u) = 
(Aufteilung des di-Integrals und Substitution t,-» — t im negativen T^iL) 

= / dt; / di[t>(<p(t/ + w) — v + ti))(v?(t+ ti) + i + «)).- 
+ «): - ¥>H + v)){<p{v + u) +tp(-v + uy\\. 

Icta zeige nun, dafi der letzte; Term kleiner als. 0 ist, da der integrand fiir v > t > G immer 
kleiner als 0 ist. Das ist Equivalent zu E(u, $i) .— JS?(ie, s 2 ) < 0, was zu zeigen war. Es ist 
fiir 5 > 0 

te(*+«).+y<-«+u)] 2 

und daher fur v > £ > 0 : 

[<p(v + w) - pf~t/ + + tt) + <p(-t + w)j < 

< [£{t) + tij + + u)][<p(t + ul- <p{-t + ti)] < 0. 
Das Verhalten fur t* < 0 folgt aus (tl.ll). Waiter gilt mit HUfesatz 11.3: 

also ist E+f$j s) fiir 5 > 0 streng nionbton steigend in u > 0 und streng mono ton fallend 

in ii < 0, 



Hilfssatz 11.7 Fiir s > 0 51ft 

i-|^^ 3 5)=nu,5)<i r 

a/so aucft j^E(u } $) > 0/ Wetter ist V(Q, s) streng monoton steigend in s. 



Beweis: HUfesatz 11,3 bringt 

1 - s) = 1 + (u - F(tt, s) - $E+(u, s) = V{u, s). 

ou 

Das ist kleiner als 1, da s > u — E(u,s) und E + (u,s) > E{u, s) wegen Hilfssatz 11.5. 
Fiir $i > Sj > 0 ist 

vto Sl ) = = 
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Das ist grofier als V(0,5 2 )j da 



Damit ist alles gezeigt. 



Hilfssatz 11.8 \u\ < 0.63, s > 1 V(u, $) ist streng monoton sieigend in $. 



Beweis: Sei wegen (11 11) oline Einschraakung u > 0. Es seieri fiir r € IR\S € (l ? ob) 

h{r, s) := / (y - r) 2 <p(y)dy, n(s) :.= s), 
r 2 (s) ~ 5 : f(s),:= (h(4?r4^))' K 5 ) :=r M r ( 5 ))v 



Alle diese Punktidnen sind offenbar in alien Komponenten stetig und differenzierbar. 
Aufierdein ist V(u. s) = Dana gilt: 

&'(*) = lim i / (y - E(u,s + h)) 2 W (y)dy - / (y - s))*¥>(y)# = 



A-+0 h 

1 



P^ + ft) P(f+/») 



— ljmP($ + ft}lim 



fc-»o v ' h-»o ft [p(> + ft) ' ?/ P(5 + ft); 

P( S )^K(tt,5) + limi[P( S + ft) -P( 5 )lK(u, 5 ), also 

^(„ j S ) = -P'(5)V(u lS )]. (11.161 

Einerseits ist nun P'(s) = <p(u + $) + pjjtC— $). Andererseits sind 

£Mr> s) = -2 / (y- r)<p{y)d Vi 
^&o(r,5) = (tx + 5- r) 2 y?(u + 5) + fa - s - r) 2 ^(u- s) . 

Damit gilt 

?(«) = grad MrU*),^.))' ( jjg} V = 

= (w + 5 - 27(tt t $))Vfa + $) + (fc - 5 - JE(u, ~ 

-2ri (5} / (y - E{u, s))<p{y)dy = 
= (u + s - E(u, s)) 2 <p(u + s) + (u - 5 - £(tt v s))fy(u - «)i 
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denndas Integral 1st 0 nach Definition von E{u,s). Eingesetzt in (11.16) ergibt sich also 

P(s) j-V{ii, s) = ([s + u- E(% a)] 2 - V(u, 5)) tfi(u + s)+ 

+ ((* - (tt - £(«, a))] 2 - V{u,s)) <?(u - a). 
Der Hilfssatz ist bewiesen,.wenn fur s > l.it < 0.63 : j^jfcs) > Qi ako 

W{u, s) := 

([a + « — E(u, sf - V(tt, + (I s " (« - *)')1 2 " V <* 8 >) > °' 

Sei zunachst a > 1.63. Hilfssatz 11.5 liefert it > E{u\ a) > 0, also 

s-u- E{u, a) > a - u - E(u, s)>3-u> 1. 

Nach Hilfssatz 11.7 ist V\u, a) < 1. Also gilt (11.17). 

Im Folgenden sei 1 < a.< 1.63. V(u, s) ist die Varianz einer unimpdalen Verteilung 
auf einem Trager [u- s,u+s] der Lange2s. Nach Theorem 3 aus Jacobsoh (1969) ist die 

Varianz einer solchen Verteilung. maximal ( Tra g er } lan 6 e ) . Daher V(u,.s) < fa 2 . Nach 
Hilfesatz.ll.4 und Hilfesatz 11.6 ist u - £(u, a) maximal, wenn ti und s maximal gewahlt 
werden, also 

-tt - E(u, s) < 0.63 - £{0.63, 1,63) = 0.3757. 
Weiter ist a + « - £?(«, a) > a > 1. Zusammen: 

W<m > (l - 1) + ((* - 0-3757) 2 - = 

Mif M?) ist «$> 2 ^- 03 ? 0 - 3757 > 0, also. 

W(u,s)> a 2 \(l - ((1 " 0.3757) 2 - f)]> 0* 
^ # 0 (tt,a) := §gk£l - 0.0547 > 0. 

Wo wird minimiert, weim.|g^| minimiert wird, Es sind mit S(u, s) .:= *>(«+a)<f> (.«-«) > 
0, a, tt > 0: 

8 v?(u-H) _ -t«H-«lSfo,«)-(a-»)sW) < Q 
asy>(u-s)- APW~»r ~- 

Also wird W 0 (u,s) minimiert, wenn u und s maximal gewahlt. werden, also u = 0.63, 
s = 1.63. Insgesamt folgt 

W 9 (u, s) > 0-5556^ - 0.0547 = 0.0165 > 0, 
womit der Hilfssatz gezeigt ist. 
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12 Fixpunktclusterindikatoren in homogenen Model- 
leii 

In diesem Abschnitt werden homogene Rcgressionsmodelle mit Regressionsparameter 
po und StSrskala crfj behandelt. Solche Verteilungen erzeugen normalerweise nicht.meh- 
rere anschauliche Cluster. Damit steht die folgende Theorie in Einklang: Im Faile ei- 
nes nornialverteilten Storterms zeige ich Existenz und Eindeutigkeit eines FPCI g mit 
j}(g.P) = $y mit den Bezeichungeri aus Definition 8;3. Dieser Satz ist ein zentrales Er- 
gebnis, da er das Verhalteri der KQ-FPCI in den Verteilungen aus P 0 nach Definition 
7,4 beschreibt. Diese Verteilungen bestimmen in der Definition der KQ-FPCI die Begrif- 
fe n Ausreifler" und „ zusammengehorig" , 1st der Storterra unimodal rnit beschranktem 
Trager symmetriseh urn 0 verteilt, wird riocli die: Existenz eines solchen FPCI gezeigt. 
Letztere Situation ist ein Beispiel fiir eine alternative Verteilungsklasse, die auch horaor 
gene Regressionsdatensat ze erzeugt. 



Satz I5L1 (Homogene Population mit nofmalverteiltem Storterm) Seic 1> 3, 

P{x, y) = / l(t <x)%^ U*)dG{t) 

wie in:Modell\3 aus AJ>$chnitt % wobei (Ec(xx'))~ l undEc(\\x\\?) existieren sollen und 
<7q > 0. Dann exisiieri geriaii ein KQ-FPCI g bzgl P. Fur g gilt 

(3( gi P) = fa r a 2 ( 5 ,P) = fe4 ? (12.1) 
wobei k > 6 die eindeutige Nullstelle ist von 



Beweis: Zunaclist sei cr% > 0. Aufgrund der Aquivarianzeigenschaften yon KQ-FPCI 
naeh Bemerkung 8.5 sei ohne BesctirgLnkung der Allgerrieinheit (3 0 = 0, 0% = 1, also ins- 
besondere ar und y stoehastisch unabhangig^ Der Beweis ist folgendennafien gegliedert:: 

Schritt 1: Es existiert eine eindeutige positive Nullstelle von /i. 

Schritt 2: Fiir g(x,y) = l(y 2 < cs 2 ) gilt: g ist KQ-FPCI bzgl. P 4* s 2 = fc, wobei k 
positive Nullstelle; von h ist. Fiir dieses g gilt (12.1), 

Schritt 3: Fur 0 ■£ 0 1st g(x, y) = 1 ((y - z'Of < cs?) nicht FPCI bzgl. P. Da ein KQ- 
FPCI g nach Definiton 8;3 die Form g(x, y\ = 1 ((y - x'O)* < cs 2 ) mit s 2 > 0,0 € 
JR P+1 haben mufi, ist damit alies gezeigt. 

Schritt 4: Der Satz gilt auch fiir a\ = 0. 

Beweis von Schritt 1: Sei s > 0. Dann gilt die,Aquivalenz 

h(s 2 ) = 0 & ho{s) := (1 - s 2 ){$(JZs) - $(-V^5)] - 2 V W(v^s) = 0- 
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Pur $ > 1 gilt h Q (s) < 0. Ich zeige, dafi fto(s) > 0 fur s > 0 riahe genug an 

0, Damit hat ft eine positive Nullstelle s Q wegen der Stetigkeit yon ft 0 und des 

Zwischeriwertsatzes. 

Es ist ft 0 (Q) = ti und fur $ > 0 

fy(s) = H2*[#(y&) - *|^V^5)] + (l - 5 2 )2;^^v^H 
+2v^5 2 ^(Vc5) - 2y%(>/cs| = 

> 2v/c5 2 [(c - l)^(^) - 2y?(0)k 

Letzter.es ist groBer als 0, falls (c — l)y(\/ca) - 2v?(0) :> 0, Das gilt, wenn 5 > 0 
kleiir genug ist, da c- 1 5> 2 nach Voraussetzung des Satzes: Also gilt ftq(s) > 0 
und d^it SoU);> 0/fur $ in einer positiven Nachbarschaft yon 0. 

Es wird nun die Eihdeutigkeit der positiven Nullstelle von ft gezeigt. Es gilt die? 
Aquivalenz 

wobei liiii ftifs) = — 1. 

Weiter ist fti(0) = 0 und h x ($) hat fur alle s > 0 dasseibe Vorzeichen wie /^(s). Ich 
zeige nun: h x hat ein eindeutiges lokales Maximum sVmit ftt(s 2 ) > 0, fur s > s 2 ist 
fti streng monotcn fallend. Daraus ergibt sich, dafi ft* eine eindeutige Nullstelle $ x 
Hat, die damit auth eindeutige Nullstelle von h' 0 und eindeutiges lokales Maximum 
yon ft 0 ist; Fflr & > $ x muB also ft<j streng monoton fallend sein, so daB die Nullstelle 
Sq von Jiq bzw. ft eindeutig ist. 
Es ist 

#(*) = (c - i)y^(J - c$*Mi/cs) > 2v^(yc5): = 

= y^(v^) j(c - «*j - 2] und 

fti(0) = y^(°K c - 1 - 2) > 0. 

Also gilt 

h! x (s) <Q& (c; - 1)(1 - c* 2 ) - 2< 0. 

(c-lj(l~ cs 2 ) - 2 iist streng mono ton fallend in 5 > 0, d.h; ft^ hat eine eindeutige 
Nullstelle 52 und h x fallt streng monoton fur s > *$. Insgesaint ist nun Existenz 
und Eindeutigkeit der positiven Nullstelle von ft gezeigt. 

Beweis yon Schritt 2: Sei g{x } y) = l{y 2 < c$ 2 ) gegeben. Zu untersuchen sind (8.3), 
(8.4) unci (8.5) aus Definition ^8.3. Fur s 2 = 0 ist j g(x\y)dP(x,y) = 0, also gilt 
(8.3) nicht. Sei in Folgenden s 2 > 0. Jetzt folgt (8.3) aus cs 2 > 0. Mit Eq{xx*) ist 
auch 

f xt'g(x>y)dP(x, y) = J l{y 2 < cs 2 )dM{y) j xx'dG(x) 

invertierbar und f y 2 g(x, y)dP{x ) y) = V(0 r y/cs) fg(x, y)djV(y) < 1 nach Hilfssatz 
11.7. Also sind fiir dR = gdP die Voraussetzungen von Hilfssatz 11.1 erfullt, wobei 
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aiis der G-Intergrierbarkeit yon ||x|| 2 auch die P- und Fr-Integrierbarkeit folgt. 
Damit gilt fur g auch (8.4) und 

P(s,P) = argMin/y (y - x'p) 2 g(x,yW(y)dG(x) = 

= a;xV(^i 1 J xyg{x,y)dfif (y)dG(x) = 0, 

da y xyg(x,y)dtf(y)dG(x) = J yl(y 2 < cs 2 )dAf(y) J xdG(x) = 0 
wegen der Unabhangigkeit von x und y. Damit (und mit Hilfssatz 11.3) 
ft'm JW < cs^dMjy) vfn fa. ijcrtyfa) 

d.h. <r*(g, P) = s 2 h(s 2 ) = 0. Fur 0(g, P) = 0 ist (8.5) genau dann erfullt (und 
damit g KQ-FPCI bzgl. P), wenn ^(y, P) = s 2 . 

Bewels von Schritt 3: Angerioramen, es gabe einen KQ-FPCI g mit 

g(x, y) = I ((y - x'6? <cs 2 ) , s 2 > 0, Q f 0. 
Der Fall s 2 = 0 scheidet wieder aus, da dann (8.3) verletzt ware. Nach (8.5) ware 
6 = argmin J (y- i'/3) 2 l ((y - x'B) 2 < cs 2 ) dP{x, y). (12.2) 

Sei fur t € IRf 1 " 1 

Fj(t) := f j(y -x't) 2 l ((y - x'df<c/) dAf(y)dG(x). (12.3) 

Mit dR — g$, s *dP, wobei ff#,^(x, y) — l((y — x'6) 2 < cs 2 ), ist wieder Voraussetzung 
(11.1) yon HUfssatz 1L1 erfullt, Also- gilt mit (11.2): 

v : =W> |;F e (0 :=< t»,gradF fl («)>= 

= -ij^Vijxi Ay - art)! ((y-z'0) 2 < cs 2 ) <W{y)dG{x\ also 

jfcW> =• -jjlji j x'9J(x'9)dG(x) mit 
J(u| : = J(y-«)1 ((y- it) 2 < eg) <(Af(y), Co := v^cs 2 . 

Es muBte £P fl (d) = Q sein. um (12.2) zu erfiillen. Ware wj(u) < 0 W ^ 0, so 
folgte JjF* (0) > 0, da G{x'0 ^ 0} > 0 fur 0 # 0; anderenfalls wra-ff^(rx')0 = 0 
und Eg{xx') nidht invertierbar. Ieh zeige also nur noch uJ(u) < 0 fur u £ 0: 

ss / u(y.-.u.)l(|y - u| < Co)<p(y)dy = 
= Ju\y- u\l(\y - u| < c 0 )(l(y > u) - l(y < n)Mlf)*» = 
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= Ju\t\l(\t\ < co)[l(t> 0) - l(t,< Q)]<p(t + u)dt = 
= J ttji|l(0 < t <Co)[<p(t + ttj- + ti)]dt = 

= J |u||f|i(g < t < co)[^(i + |«|) - <pH + (12.4) 

da fur «;< 0 : <p(t + «) = <p{-t + y>(-t + it) = <p(i + |«|). 

^ ist symmetrisch urn 0 und im Positives streng monoton, fallend. so dafl 

t > 0,u> > 0 =i> wt[<p{t+w) - <p{-t + w)) < 0. 
Aus (12.4) folgt uj(u) < 0. 

Beweis vda Schritt 4: Sei nun cr 2 = 0, bhne Einschraiikurig - 0$ = 6, d.h. P{y = 0} = 
1. Ich zeige; 

$C*. y) = l((y - *'0) 2 < cs 2 ) ist KQ-FPCI «*(0,s 2 ) = (0,0). (12.5) 
Pur g aus (12.5) mit (5, s 2 ) beliebig gilt fiir 0 = 0: 

jM ~ x'0fg(x,y)dP{x,y) = = 0)dP(*, j/) = 0 

uhd fiir 0^0: 

f(y-i<0fg(x>,y)dP(x t y)>O. 
Das hei8t: Entweder (3(g* P) = argmin /(y — x , /3) 2 g(x y y)dP(x,7j) nicht eindeutig. 

so dafi (8.4); nicht erfullt istoder (3(g x P) = 0. Also mufi 0 — 0 sein, urn (8.5), zu 
erfiilleiL Fiir 9 = 0 und beliebiges s 2 > 0 sind (8.3) und (8.4) erfiillt und es gilt 
a?(g,P) =; 0, so dafi g genau dann KQ-FPGI ist r wenn s 2 == 0. 

Bemerkung 12.2 Die Kvnst^ Es ist also Oq($ F| := 

* = <7q /ur den eindeutigen KQ-FPCJ g aus Satz 12.1. Fiir einen gegebenen Daten- 
sdtz TiMiteifid^ ist also cr$(Z(gj) ~ * WW F&her^oiisisfenter Sehatzef 

fur erf. Fiir c = 10 ergibi sich zum Beispiel k = 0.9795. 

Bemerkung 12.3 Saiz 12.1 besagt, dafi der einzige KQ-FPCI fur P € Vo die Form 
g{x,y) = 1 [(y — x'fa) 2 < ckaf] hat Nach (8.2) ist das gehau 1 — ![• € AfaiyP)] mit 
a x =' 1 - x\{ck) = 0.0018 fur c,~ 10. Fiir KQ-FPCI im Regressions/all und Vq ist also 
die Ausreifiereigehschaft erfullt (siehe Definition %$). 
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Satz 12.4 (Homogene Population mit beschranktem Stortrager) Sei c > 3, 

Pfay) = f l(t < x)Q(y - t'p Q )dG(t), 

ivobei (Ec(xx'))~ t und:E\(\\x\\ 2 ) ex&tiefen sollen. Q habe einen beschrankten Trager 
suppQ = j-m, m], m € IR + und eine beschrankte Riemann-Dickte q. q sei symme- 
irisch um 0, stetig in. 0, und streiig monoton fallend zwiscken 0 und rn. Dann exisiiert 
ein KQ-FPCT g bzgl. P mit 

0(g,P) = 0o, <7%i>) = *J«W = fcVax(Q), (12.6) 

wobei 1 > k> Q Nullstelle ist von 

■,, v Jv 2 X(y 2 <ck)dQ(y) 
m '~ Il(v* <ck)dQ(y) * 

g ist KQ-FPCI bzgl. P (12. 6), so dafi g genau dann eindeutig ist, wehn die positive 
Nullstelle k von j eindeutig ist 

Beweis: Es wird analog zum Beweis von Satz 12.1 vorgegangen: Aufgrund der Aqiii- 
varianzeigenschaften von K^FPCI nach Beraerkung $.5 sei qhne Beschrankung. der 
AUgemeiiiheit fa = 0 t EQ(j/ 2 ) = Var(Q) = 1, also irisbesondere x. und y stdchastiscb 
unabharigig. Der Beweis ist folgendermafien gegliedert: 

Schritt 1: Es existieix eine positive Nullstelle k < 1 von j, 

Schritt 2: Fiir gfc y) = l{y 2 < cs 2 ) gilt: g ist KQ-FPCI bzgl P & s 2 = fc. Pur solche 
5 gilt (12.6)1 

Schritt 3: Pur ## Q ist ftfe Jf j = l((Sf - < ■ nicht FPGI bzgl P. 

Beweis voxi Schritt 1: j ist stetig fur Argumehte grofier als 6, weil Riemann-Integrale 
stetige Funktionen ihrer Intervallgrenzen sind und 

jW < ck)dQ(v) = j^q{y)dy> 0 
wegen g(0) > 0 und <? stetig. Sei zunachst s ? > 1. Es 1st 

5(5?), = £ 0 (y 2 !/ < cs*\ - s 2 < %<y 2 ) -s 2 = l-s 2 < 6. 

Alle Nulistellen von j sind also < 1. Die Existenz einer positiveri Nullstelle von j 
folgt also mit dem Zwischenwertsatz aus der Existenz von s 2 > 0 mit j(s 2 ) > 0. 
Ahgenommen, ein solches s 2 wurde nicht existieren. Es gilt 

V5>0:j(s 2 )<0^ 
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<S> Vs >0: / (y 2 - s 2 )l{y 2 < cs 2 )dQ{y) < 0 & 
«• Vs > 0 : / (y 2 - $ 2 )l(s 2 < y 2 < cs 2 )dQ{y) < 

< J(s 2 -y 2 )l(y 2 <s 2 )dQ(y). (12.7) 
Nun ist einerseits, da q zwischen 0 und m streng monotqn fallt. 

j(y 2 -s 2 )l(s 2 <y 2 <cs 2 )dQ(y)> 
>j{y 2 - s 2 )l(2s 2 < y 2 < cs 2 )dQ(y) > s 2 (c- 2)s 2 q{cs 2 ), 

und andererseits ■ 

/(s 2 - yW < s 2 )dQ(y) < (s 2 ) 2 q(0). 

Zusaminen mit der Stetigkeit yon q in 0 gilt 

(12.7) Vs > 0 : ?(0) >. (c - 2)g(cs 2 ) 
=> q(Q) > Hm(c- 2) g (cs 2 ) = (c- 2)9(0). 

Das ist ein Widerspruch zu c - 2 > 1 und q(0) > 0. 

Beweis von Schritt 2: Sei g(x,y) = l(y 2 < cs 2 ) gegeben. Zu untersuchen sind (8.3). 
(8.4) und (8.5) aus Definition 8.3. Fur s 2 = 0 ist Jg(x,y)dP{x, y) = 0 wegen der 
Stetigkeit von Q, also gilt (8.3) nicht. Sei im folgenden s 2 > 0. Jetzt folgt (8.3) aus 
cs 2 > 0. Mit £<?(:rx') ist auch 

f xx' 9 (x,y)dP{x,y) = J l(y 2 <cs 2 )dQ(y) f xx'dG(x) 

• invert lerbar Und fy 2 g{x,y)dP(x,y) < fy 2 dQ(y) = 1. Also sind fur dR = gdP die 
Voraussetzungen von Hilfssatz 11.1 erfullt, wobei aus der G- Intergrierbarkeit von 
|jir|| 2 auch die P- und i?-Integrierbarkeit folgt. Damit gilt far g auch (8.4) und 

/% P) = argmin J j(y - x'0fg(x, y)dQ(y)dG(x) = 

= [Jxx'g(x,y)dG(xj\ 1 f xyg{x,y)dQ(y)dG(x) = 0, 
da j xyg(x, y)dQ(y)dG(x) = f yltf < cs 2 )dQ{y) J xdG(x) = D 

wegen der Unabhangigkeit von x und y. Damit gilt 

n Jy 2 l(y 2 <c5 2 )(iQ(y) 
* J " /l( 2 / 2 <c 5 ^Q(y) « 

d.h. o" 2 (o,P) = s 2 j(s 2 ) = 0. Fur 0(g, P) = 0 ist (8.5) genau dann erfullt (und 
damit g KQ-FPCI bzgl. P). wenn a 2 {g, P) = a 2 . 
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Beweis yon Schritt 3: Angenommen, es gabe einen KQ-FPCI g mit 

g(x. y) = 1 ((y - x'Bf < ts 2 ) , i 2 > 0,6 # 0. 
Der Fall s 2 = 0 scheidet wieder aus, da dann (8.3) verletzt ware. Nach (8.5) ware 
9 = argmin J j (y-x'Pfl ({y-x'9} 2 < es 2 ] dP{x,y), (12.8)' 

Sei fur t € 

F # (f) := //(«- i'0 2 l ((?/ ~ f'6) 2 < cs 2 ) dQ(y)dG(x). (12.9) 

Fall 1: G({|z'd| > y/cs + m}) = 1. Dann ist 

^ J 1 ((y - x'$f < c$^dQ(yjdG(xl = 0 

wegen suppQ .— [—to, m] irn Widerspruch zu (8.3). 
Fall 2: G ({x'0 = O}|{|x'0| < y/cs + m}) = 1. Dann' gilt 

*»(*) = j jyh ((y - x'Of < cs 2 ) dQ(y)dG(x) = F,(0). 

Also minitaiert 5 hi cht eindeutig F$ im Widerspruch zu (814). 

Fall 3: G {{x'B f 0} Q {\x'6\ < y/cs + m}) > 0. Mit di? = &, )S jdP, wobei g 8 ^{x, y) 
1 ((y - x'B) 2 < cs 2 ), ist wieder Voraussetzung (11.1) von Hilfssatz 11.1 ernillt. 
Also gilt mit (11.2): 

v ' : = Pi- •=< w,gradF,(i) >= 

= -2E«i /*< ~ ((y- *'0) 2 <cs 2 )dQ(y)dC?(x), also 

&Fe(?) = / x'ej(x'd)dG(x) mit 

Ich zeige « j(«) < Q fiir alle u mit 

0 < \u\ < y/cs + m. (12.10) 

Nach der: Voraussetzung an G in Fall 3 folgt daraus f x'9J(x'$)dG(x) < 0, 
also -§;F$(0) > 0 im Widerspruch zu (12.8), womit alles gezeigt ware. 

uJ(u) = J u(y - u)l(\y- u\ < Co)q{y)dy = 

= j u\y- tt|l(|y — 1*| < co)(l(y > u) - l(y < u)]q(y)dy = 

= f u\t\l{\t\ < Co)[l(t > 6) - l(t < 0)}q(t + u)dt = 

= f u\t\l(0 : < t < Co)[q(t + «) - q(-t + u)]dt =, 

= j |u|rl(0 < t < Co)[q(t + |u|) - q{-t 4- \u\))dt, (12.11) 
dafurtt<0: q{t + ii) = q(-t + \u\), q(-t + u) = q[t + \u\) . 
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Nach Voraussetzung gilt y G (--m.m) =*> q(y) > 0. Weiterhin ist q symme- 
trisch urn 0 und Strang mpnoton fallend zwischen 0 und m. Daher 

t •> 0, |tt| > 0 =* \u\t{q{t + \u\) - q(-t + \u\)) < 0. 

Zusammen mit (12.11) ergibt sich 

uJ{u) < I |ti|il[max(-m :.+ \u\,0) < 
< t < rain(c 0 ,m + \u\)][q(t + \u\) - q(-t + \u\)]dt. 

Letz teres ist kleiner als 0, denn mit (12.10) ist -in + |«| < min(c 0! m + J«|)V, 
weiter sind co, m + |ttj > 0 und aus den Eigenschaften von q folgt fur t > 0: 

-m f [uj < < <ni+ |u| =»<?(-* + M) > 0 -s * fl'C + M) ~ + M) < 0'. 
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13 Fixpunktclusterindikatoren in Mischmodellen 

In diesem Abschnitt werden Modelie der Form 

(l-e)P(x y y) + tH*(x..y) (13.1) 

behandeit; wobei P eine; Verteilung ist, ctte zusammengehqrige Punkte erzeugen soil, d.h, 
eine ho$pg^ den Satzen 12.1 oder 12.4. Die genaue Form 

von wird nicht festgelegt. H* kqnnteals ausreifiergenerierende Verteilung interpretiert 
iverden bder aiich eine Mischung weiterer honibgener Regre&ionsverteilungen seih. Erne 
solche Verteilung wiirde dann Datensatze mit mehreren Clustern generieren. H* mufi 
allerdin^ von P „gut getreant sein". In Abschnitt 13.1 bedeutet das : dafi H* im Bereich 
des Fix^unkklusters von P keine Masse bat, also alle Masse vori H* im Bereich der 
durch den FPC defihierten AusreiBerregion liegt. Diese Resuitatesind zum Beispiel, auf 
die Modelie aus Abschnitt 2 nicht ahwendbar, da dort der Storterm normalverteilt ist 
und'daher auf gariz M. eine nichtverschwindende Dichte hat. 

In v dc»f ^a^^Q^ge^ei^ Abschimtten 13 2 und 13:3 'warden iiberlappende Mischungen 
behandeit, wobei allerdings die Masse von H* in den Bereichen, wo P „dicht" ist. stark: 
beschrahkt wircL Aufgrurid rechnerischer Schwierigkeiten beschranke ich mich dort auf 
den Fall eindimensbnalev Lokation (Abschnitt 13.2) und auf den Fall einer Regression 
ohrie Achsenabschnitt (Abschnitt 13.3). 

Alle Resiiltate sind Existenzresultatei d.h. die Eindeutigkeit der dort hergeleiteten 
FPCI wird nicht bewiesen. Eindeutigkeitsresultate waren aber auch anschaulich nicht 
sinnyoll, dehn viele Mischmddelle der obigen Form erzeugen normalerweise mdbxere an- 
schauliche Cluster. 

Keines der Resultate benotigt Vbraussetzungeh fiber Identifizierbarkeit. Das ist cha- 
rakteristiscli fur die Fixpunktclusteranalyse (FPC A). Da die FPCA keine Optimallosung 
eines Entscfeeiduhgsproblems erzwihgt, ist sie prinzipielt in der Lage, verschiedene Pa- 
rametrisierungen desselbe^^ zu finden (siehe dazu das Ende yon AJbsbfcnitt 16.2 

iii den Simulatibhenj. Allerdings beziehen sich die Beispiele fur Identifizierbarkeitspror 
bleme in^Ab^lmitt 5 auf Falle der Mischungen von Regressionen rait normalverteilteitf 
StSrterm und Achsenabschnitt, die in den Satzen dieses Abschnitts nicht behandeit wer- 
den> Die Spezialfalle] die in den Beispielen 13.6 urid 13.14 diskutiert werden, haben 
identifi^erbare Parameter: Auf eine Lqkationsmischung von Nprmalverteilungen (Bei- 
spiel 13.6) karin Satz 6.7 mit f '= 0 angewendet werden. Mit demselben Satz folgt auch 
die Identifizierbarkeit einer Mischung von Regressionen ohne Achsenabschnitt mit nor- 
malverteiiten Regressoren (Beispiel 13.14). denn der fehlende Achsenabschnitt bedeutet 
mit /3p+i = 0 eine Einschrankung des Parameterraums. Dabei bleibt Identifizierbarkeit- 
iiach Bemerkting;4.7 erhalteii. 

13.1 Scharf trennbare Mischungen 

In diesem Abschnitt wird Korollar 7.6 auf die Satze fiber homogene Modelie angewen^ 
det, d.h. es werden Verteilungen H* zu den Verteilungen aus den Satzen 12.1 und 12.4 
gemischt, die beziiglich der dort vorhandehen FPCI nur Ausreifier erzeugen. Satz 13.1 
behandeit den Fall, daB zum homogenen Modell mit normalverteiltem Stbrterm eine Ver- 
teilung gemischt wird. die mit Wahrscheinlichkeit 1 Ausreifier gemafi Bemerkung 12.3 
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erzeugt. Satz 13.2 behandelt eine Mischimg aus homOgenen Modeller deren Storterm 
beschrankten Trager wie in Satz 12A hat, so daB sich die yon den verschiedenen homo- 
genen Verteilungen erzeugten FPCI nicht uberschneiden und damit jeweils fureinander 
Ausreifier sind. 

In beiden Fallen existieren FPCI mit denselben Pararaetern wie in den Satzen 12.1 
und 12.4. Die Mischung mit H ' verzerrt also die ClusterihdikatOren nicht. 

Satz i3.1 (Normalverteilter Storterm und Ausreifier) Sei c > 3 und 

R(x,y) = (1 - e)P(x, y) + eH*{x, y), 
P definiert wie in Satz 12.1, H* € V p+2 , 0 < e < 1, und mit k gemafi Satz 12.1 gelte 

H'tixvy) : (y - x%? < dial) = Q, (13.2) 
Dann existiert ein KQ-FPCI g mit 

0( 9 ,R)=0o, a 2 (g,R)=kal (13,3) 



Beweis: Nach Korollar 7.6 ist g{x,y) = 1 [(y - x'0 o ) 2 < cka%] KQ-FPCI bzgi. R, vvenn 

g KQ-FPCI bzgl. P ist, (13.4) 
R({9 = 1}) = (1 - <)P({9 = 1}) > 0, (13 5) 

1 13.4) folgt aus Satz 12.1. (13.5) gilt wegeh € < 1. Writer gilt gdH* = 0 wegen (13.2). 
Daher gilt (13,6). fur B € B p+2 : 

Nach Bemerkung 8.4 : unci der Definition von g gilt dann audi (13.3). 
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Satz 13.2 (Mischung mit beschr&nktera Storterm-Trager) Es $ei c> 3 und 

$ 



$ 



o <e { < i, £X=u 



t-1 



tuo&ei Q,' mit Riemann-Dichte cm/[-m;,7n f ] some Gifur alle i die Voraussetzungen 
aus Satz 124 erfullen. Aufierdem gelte 

Vi # i :.£{<*,*! : (ft-- x%) 2 < cVar(%)} = 0, (13.7) 

£?ann existieren KQ-FPCI Qui; = 1, . . . , a mit 

P(9u R) = h 0 < ° 2 (9u R) < VviQi) Vi: (13:8) 



Beweis: Sei i€ {!,,..,$} test. Nach Satz 12.4 existiert eiri KQ-FPCI 

bzgl, definiert wis k in Satz 12.4. Nach Korollar 7.6 1st & KQ-FPCI bzgl. R, vvenn 

i?({ 9i = l}) = €^({ 5f =l})>0 l 

Ersteres gilt wegen e r > 0, Wegen (13;7) und ^ < 1 (Satz 12.4) ist gidPj = 0 Vjf f i y 



also auch 



Daher ist fib 5 € 



ftdff* =0mit dH* :~ d 



Nach Bemerkung 8.4 und Definition von p gilt dann auch (13.8). 

Abbildung 9 zeigt eine Situation, wie sie in Satz 13.2 behandelt wird. Dajbei sind die 
dicken Linien die Regressionsgeraderi der einzelnen Mischungskomponentenj die Kasten 
sind die Trager der einzelnen Verteilungen (auch die Regressoren haben in der Abbildung 
beschrankten Trager) und die gestrichelten Linien itiarkieren die Rander der Fixpunkt- 
cluster. Je nach Dichte des St5rterms kann fur gegebenen Regressor der Bereich des 
Fixpunktclusters zwischen -ck, Var(Qj) und cfejVar(Qj) breiter oder schmaler sein als 
der TVager der Storverteilung [-m^m,]. Voraussetzung (13.7) besagt, dafi der Bereich 
zwischen den gestrichelten Linien einer Verteilungskomponente nicht die Trager der an- 
deren Verteilungskomponenten. dh. die Kasten, schneiden darf. 
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Abbildung 9: Beispiel fur Satz 13.2 

13.2 Uberlappende Mischungen im Lokationsfall 

In diesem Abschnitt wird ein erstes Resultat ttber die Existenz von Fixpunktclustern in 
einem Modell der Form (13.1) gezeigt, wobei sick die Verteilungen P und H* iiberlappen. 
Ich bebandle hier den eindimensionalen Lokationsfall, d.h . Q sei eine Mischung aus einer 
univariaten Normalverteilung P tnd irgendeiner andefea Verteilung H* auf.272. 

Bemerkung 13.3 (KQ-FPGI im Lokationsfall) In der Schreibweise der Definition 
8.3 und Bernerj^ngXlbedeuteidas: p=Q,G(;x) = 6i. Set g„,,2(y) = l((y- u) 2 < cs 2 ). 
Wegen x = 1, y 2 g u ,Av) < (« + yes) 2 sind miiJR = g^dQ die Voraussetzungen von 
Hilfssatz 11.1 erfullt und 



arg min / {y - P) 2 dR(y) = 



fydR{y) 



fi i S,dR(y) • 

Also ist g u ,,t genau dorm KQ-FPCI bzgl Q, wenn 

fg{y)dQ{y) > 0, 
(ti, s 2 ) ist Fixpunkt von / = (A a 2 ) : 2R x t-t IRx 27tf, 

o 2 M = ^~T )) >^ 



t(y)jQ(y) 



(13.9) 



(13.10) 



r 
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Werin P == A/J^j), dann besagt Satz 13.4, dafi bzgl. Q gemafi (ill) ein KQ-FPCI 5 
existiert, so dafi /%, Q) € Mo, <J 2 {g,Q) € £ 0 , wobei Af 0 eine beschrankte Umgebung 
voii po und £ 0 eine beschrankte Umgebung von 0% ist. Die wesentliche Voraussetzung 
des Satzes ist, dafi 

V/ = {y : (y- ^) 2 < cs 2 , € M 0s s 2 G 5b} : #*(/) < e 0 P(/), 

wobei 6q von e abhatigt Diese Voraussetzung bedeutet, dafi ehtweder H* und P selir gut; 
Yoneinander getrennt sind - H* hat wenig Masse, wo sich P „clustert u - oder daB c sehr 
klein ist. 

Die Parameter des FPCI entsprechen nur approximate den Modellparametern, aber 
der Satz gibt konkrete Schranken an und es gilt M 0 -4 {/? 0 } fur e Q -4 0, e -4 0 odcr 
00 -4 0 (siehe Hilfssatz 13.7 und die Korollare 13.8 und 13.9). 

In Beispiel 13.6 \vird der Satz Ulustriert, indem in einer Mischung zweier Normalyer- 
teilungen die Mengen Mb und 5 0 Bereclinet werden. 

Bezeichnungen und Koristahten fur Satz 13.4: Es sei P := A^^y, cr| > 0. Es 
werden eine Pixpunktcluster- Justierkonstante c spwie eine Konstante e* benqtigt, sp dafi 
folgende Urigleichungeii mit % :== 1.5 erfiillt sind: 

c 0 := 4.2974 = 2e* +1 <c < 25, 0 < c* < - l \ r (13.11); 

- ... ~, (4c-l)g ' 

Daraus folgt (4c - l)g > 24.28, also e* < 0.0412, sowie 

1 > Cl (c*j := 1 - (4c - IK > 1-- = ^i>6. 

9 9 

Es gelten die Bezeichnungen aus Abschnitt 11.2. Sei fur (u, $) € IR x 27?***: 

fc(u, 5, e*) := £(ift,3) - & .+ e*s. 

ist offenbar stetig. Nach Hilfssatz 11.4 ist A; streng monctbn fallend in u und konvergiert 
mit u -4 00 gegen (e*— i ) s < 0: Andererseits ist k(0> s, e*) = e*s > 0. Daher hat &(•, s, e*) 
eine eindeutige Nullstelle Kq[$\.€*) > 0. Es seien 

- sup{^o(^,€^ : i < < 

(In Schritt 2 des Beweises zu Satz 13.4 wird Kq(€*) < 00 gezeigt.) 

Mi(c^) := [inf M 0 (^) ~ ^/csup5 0 (e*) ; supM 0 (e*) + ^/csup5 0 (c')] = 
Damit kann nun der Satz formuliert werden: 
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Satz 13.4 (Lokationsmischung mil Normalverteilung) Es sei mitO < e < 1 

Q(y) :=(l -t)P(y) + efT'(ty) : 



H* e Vi seiMetig:aufMi(e*), Fur e 0 := gelte 



H%b}<e 0 P[a,b] 
V[a. b\ = [to — y/c8,rn + ,/cs] mi* m £ Mp(e*), s 2 € 5 0 (e*). 



(13.12) 
(13.13) 



Z>ann existieri gin fCQ-FPCI g bzgl. Q mit 

P(g,Q) e Moi?), c*(g.,Q)eS 0 (e-). 



(13.14) 



Beweis: Im Falle a 2 , = 0 ist / = Q)dQ(y) > (I - e) > 0 urid 

j(y - u)h{y 2 = 0)dQ(y) = 0 & u = 0, 



so daB /?(0,0) = 0 = a 2 (0,0). Damit sind fur 50,0 (13.9) und (13.10) gezeigt, es ist 
KQ-FPCI bzgl. Q, und der Satz folgt mit Afo(e') = So(e*) = {0}. 

Sei nun erf, > 0. Aufgrund der Aquivarianzeigenschaften der FPC1 (Bemerkung 8.5) 
sei bhne.Beschrankung der Allgemeinheit (3q — 0,<Xq = 1. Sei / definiert wie in Bemerkung 
13.3. Sei M ':= M 0 (e*) x So(e*). Arigenoriimen, («. s 2 ) € M sei Fixpunkt von /. dann ist 
g Uy3 3 mit Schritt 1 der folgenden Argumentation audi KQ-FPCI fCir Q. Weiterhin wird 
gezeigt: Die Einschrankung von / auf M ist eine Selbstabbildung (Schritt 2-5 zeigen: 
(u, s 2 ) € M /(«,s 2 ) € M) und stetig (Schritt 6). Brouwers Fixpunktsatz (zum 
Beispiel Satz 229.2 aus Heuser (1981)) sichert die Existenz eines Fixpunktes eiixer stetigen 
Selbstabbildung einer kompakten und konvexen nichtleeren Teilmenge des 2R 1 . Afjj(eT)" 
und 5o(e*) sind abgeschlossene Intervalle, wobei 5 0 (e") nach Definition und Mq(e') nach 
Schritt 2 kcmpakt sind. Also ist auch M ist als Produkt kompakter Intervalle kompakt 
und kdnvex und wegen K $((.') > 0 (&, al) G M nichtleer und der Beweis liefert die 
Existenz eines Fixpunktes. von / auf M. Folgende Behauptungen werden gezeigt: 



Schritt 1: («,s 2 ) € M =» g u>t i erfullt (13.9). 
Schritt 2: 



iVf 0 (e*) C [-0.6252, 0.6252] 



Schritt 3: 



V(«,s 2 )€M:/3(u..s 2 )eM 0 (e*) 



Schritt 4: 



V(«,s 2 )6 M :c 2 (u, s 2 ) < 



1 



ci(e-) 
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Schritt 5: 

V(ti,s ! ) gM:ff J («,/]> - 

Schritt 6: / ist stetig auf M. 

Beweis von Schritt 1: (u> s 2 ) € M s 2 > 0. Damit: 

j 9u^(y)dQ(y) > (1 ~ <0 / 9uj(y)dM { ^($ > 0. 

Beweis yon Schritt 2: Es gelten die oben eingefuhrten Bezeichnungen und Konstan- 
ten; Betrachte 

sup Mq(c*) ~ sup Koiy/cs, e*) = sup {it. : k{u, y/cs.- e*) ' = 0}; 

Nach Definition hat & nur positive Nullstellen. Af 0 (e*) ist nach Definition symme- 
trisch urn 0. Daher wird im folgenden immer u > 0 vorausgesetzt. Es gilt 



c '< £ -» >c '(p^)= i ? i ' 



so dafi 

G So (p^) - [|, ftj C [fc ^] =: $$, 
also s 2 € S£».yfo €C 0 * := [l.^/pf] • 

Weiterhin ist ft streng monoton steigend in c* und streng monpton fallend in u, 
und daher gilt mit e* < (4c *,j g : 

k{u,s,€ m ) = 0=^k (u,s, J^ffij > °- ^ « = K 0 (s, €*) < K 0 (^s, J^ZJ^j * 
Seijetzt 

Mtt, « c) := & («, s, = *<* S ) + _ 

fco fallt streng monpton in c > c 0 = 4.2974 und wegen Hilfesatz 11.4 in w. Also 

ko(u } 5 : c) = 0 A;p(«, 5. Co) ; > 0, daher u < K 0 ^5. ^ * ^- jj . 

Zusammengesetzt: 

sup Mq(c*) < sup{zt : fco(^^i c) = 0} < sup{u : k 0 (u t s, Cq) = 0}. 

Es sei u(s) definiert geraaB & 0 (ii(s) } $ t Co) = 0. Nach Definition von k ist u(s) > 0 
damit wohldefiniert. u(s) soil nun fur 8 € Cft maxirniert werden. 
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k 0 ist stetig differenzierbar nach u und s. Wie sich aus Hilfssatz 11.4 ergibt, ist fur 
beliebiges s > 0 







du 


«=ti(s). 



<0. 



Damit kann der Satz fiber Differenzierung irnpliziter Funktionen (zum Beispiel Satz 
1701 aus Heuser (1981)) angewendet. werden: 



mit Hilfe von Hilfssatz 11.3. Alle Terme des Zalilers sind (bis auf die angegebenen 
Vorzeichen) positiv. Da s € Cq, gilt s > 1, also E+(u(s),s) < u(s) + l mit Hilfssatz 
il.5. Damit lafit sich sowohl die Summe der Terme mit ,,+" als aucb die Summe 
der Terme mit ,,-" in der grofien Klammer durch 



1 



1 



( _ y. < (,+ 44 + 1 W») + Pcb _ 1)5 

abschatzen. Sei yorerst tt(s) < 0.63 vorausgesetzt. Damit 

sup eg = 15; 4 jZablef J < 0.63(15 + 1.63) +0.0412. 

Der Nenner ist nach Hilfssatz 11.7 gleich -V{u(s), s), was nach Hilfssatz 11.8 fur 
s € Cl keinen kleineren Betrag hat als V(u(s), lj. Um den Nenner zu minimieren, 
betrachte man mit Hilfssatz: 11 .3 



3« 



*%lj = 



= 2uE + (u, 1) 4%f 2 (tt, 1) - 3J5(tt, !)£?+(«, 1) - fi(ti, l)u 2 - 2£ 3 (u, 1) (13.15) 



1^ 



<9, 



(13.16) 



denn alle Terme in (13.15) sind (bis auf das angegebene Vorzeichen) positiv. Ick 
habe u hierimmer durch 1 und £+(«; 1) gemafi Hilfssatz 11.5 durch 2 abgeschatzt. 
Damit ist die Summe der Terme mit „+" kleiner als 7, die Summe der Terme mit 
„-" kleiner als 9. Daher iiberschatzt das Minimum von V(«, 1) aus 71 aquidistanten 
Stiitzstellen im Abstand 0.009 zwischen 0 und 0.63 um hochstens 9* = 0.0405 
das Minimum von | - V(u, 1)| fiir |«| < 0.63; Zusammen ergibt sich 

|Nenner| > jmin \V(u,l) > 0.2337 =* \u'{s)\ < 45.01. 

Damit kann nun maxu(s) fur v/cs. e Cq = [1,15] abgeschatzt werden: Das Ma- 
ximum M tt von u(s) an 41967 aquidistanten Stiitzstellen mit Abstand 0.000334 
unterschatzt maxu(s) um hochstens: 45.01 * 2iS f SH = 0,0075. MitM u = 0.6177 
ergibt sich u(s) < 0.6252. 
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Vorausgesetzt war dafiir u(s) < 0.63. Diese Voraussetzung ist wegen M u — 0.6177 < 
0.63 fur alle Stutzstellen 1 = s t ,., .,s im7 = 15 erfiillt. Angenommen, es gabe nun 
z '€ [1, 15] mit tt(zj > 0.63. Dann 

. / 0.000334 0.0003341 
3i 6 1, . . . , 41967 : z € ( S; ^ , s< + j — J . 

Sei z 0 := M{z € fa - 2«i iS . + S«] : «( 2 ) > 0.63}. Wegen der Stetigkeit 
von u ist u(2q) = 0.63. Nach dem Mittelwertsatz der Differentialrechnung mufi es 
dann z x € (s<,2o) geben mit 



l«'K)i = 



26 - *i 



0.63 - 0.6177 

> — - ■ = 73.65. 

- 0.000167 



Fur s mit u(s) < 0.63 war aber |u'(i)| < 45.01, also u(zi) > 0 63 im Widerspruch 
zur Definition von z 0 . Also gilt u(s) < 0 63 fiir $ € [1, 15] und damit auch u{s) < 
0.6252. 

Beweis voir Schritt 3: Definiere 

Q. ■- (1 - e)P + e#_ , _ := £(-y) fiir £(y) = /T. 

J&. erfiillt die Voraussetzungen des Satzes an H' ebenfalls, da Afd(e*) und M^e*) 
symmetrisch urn 0 sind und fiir alle a > 6 € M: H-[-b,-a] - H'[a.b}. Dann 

P i?»,»*t VI - (l-*)J s a ,,r(»m»)+tJ fl u ,^)dH'(») 
_ Jvg- u .,t(»)^(»)+tf yg_i;.3(g)rfg-(v) _ »/ ^ v 

ff 2 (Pu^v Q) = ^ 2 (S-«m*. Q-) 

mit analoger Rechnung, dena F und die Mettge M 0 (e*) sind symmetrisch urn 0. Sei 
daher ohne Binschrankung u > 0, Es gilt: 



l£M 2 )l = 



(i-«)7 w u ,.»(»)df(y)+t Jgg u ,, 2 (g)dtf-(y) I < 



(Der Nenner ist > 0 nach Schritt 1, die erste Halfte des Zahlers ist > 0 wegen 
Hilfssatz 11,5.) 



(1317) 



(Fiir g u<3 7 (y) = 1 y £ [u - v^s, « + \/cs] gilt y < tt + yfo.) 

5 (1-e) j" 9„.,»(y)'y , (»)+' / S„.. 2 (i>)<W(v) - 

(Diese Ungleichung wird am Ende von Schritt 3 gezeigt.) 

^ (1-4 f 99. ,»(»)^(y)+«o(«+>/c») f s u ll (j/)<iP(j/) „ , oN 
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(Herauskiirzen von (1 - i) /5 U| ^(y)dP(y), eirisetzen von €?•"== ^.) 



Das heifit: 



\ + e — - w <0 |/3(tt,s 2 )| - u < 0. 

Dutch Multiplikation der lihken Seite mit (1 + e*) ist das gleichbedeutend mit der 
Inklusion 

fc(ti, v/c5,e?) = Efayfis) + €*yfcs - u < 0 |0(ti, 5 2 )| < u, (1319) 
> 0 ist die eindeutige Nullstelle von y/cs, €*). Sei 
« := A^(0 = maxM 0 (e*) < 0.6252. 
Schritt 3 ist bewiesen, wenn 

u < v x i € 5o(f r ) % <>♦ 
Da k streng monoton in u fallt, gilt 

ffl^'V^*** s/cs-v n ^ g(v,yfo)W(t:+v'ca) ^ . 

Aus Hilfssatz 1L7 geht hervor. daBjZ?(ttjS) monoton in u steigt. Damit und mit 
der Ungleichungskette zu Beginn des Beweises voii Schritt 3 folgt: 

Vu<v: \g(K£)\ < -B^Mh±^M < 

Es bleibt die Ungleichung zu zeigen, die zu (13.18) fiihrt. Zuerst wird ein Hilfsre- 
sultat bewiesen: 

<f > 0, a, 6; e, h > 0,h > » e > 6 - — r < (13.20) 

a a + a a + e 

Beweis von (13.20): Aus den Voraussetzungen folgt a(e - b) < hd(e -6). Damit ist 
ae + bhd <ob + ehd. Weiter gilt 

a.+ bh _ ad + bhe + ae + bhd < ad + bhe + ab + ehd _ a + eft 
" (d+6)(d+e) ~ (<f + 6)(d.+ e) " rf + e" 

Es seien nun 

a := (1 - €) Jf y9us{y)dP{yl b := e / g u j(y)dH*(y) t 
d := (1 - t)Sg u j{y)dP{y) y e := ee Q f g^{y)dP(y), 
h:— (u + y/cs). 
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o > 0 gilt wegeri it > 0 £(%*) > 0 (Hilfssatz 11.5). Voraiissetzung (13.12) 
garanticrt e > 6, denn : du tS *(y) = 1} ist em Interyall der Form (1313). Hilfssatz 
11.5 erbririgtf 

0 < 3 = E(u, y/cs)' < u + y/cs = h, 

' a ' " 

Schritt 1 bringt rf > 6. also sind die Voraussetzungen von (13,20) erfiiilt. Daraus 
ergibt sich die Uhgleichuhg- (13.18). 

Bfeweis von Schritt £k 

I$*M 2 ) miiiimiert (13.21) nach Hilfssatz 11.1 mii* = 1, dR^g u%9 idQ.\ 

(Aus g Ul B*(y) :r 1 S [«'- y^pi+yEs] folgt B(w, V??)] ? < 4cs ? vi da auch 
^a(£?(u, v^)) = 1 aach Hil£ssa;tz 11.5.) 

Nun soil |l3;20) angeweiidet werdeii. Es seiea 

a := (1- - Vcs)] %Ay)dP(y)< b ~ e/^(y)^(y) ir 
<fe?~ (1 - c) lg u ^(y)dP{y), :e,:-= mT9u^Wb% 



h :=::: 

Es sind pffenbar wieder a, 6, e, ft > 0, d > 0, e > 6 und nach Definition yon y (u, 5): 

0 « | = ^(u lV ^) < = 4 
also sind! die Voraussetzungen yon (13.2iO); r erfuUt; Daraus ergibt siph 

(Herauiskurzen yori (1 - e) J 9^*X$}dP{yy und einsetzen von e* = f^; die letzte 
Ungleichung gilt nach Hilfssatz 11.7;) 

Sei nun 

Fiir *o := gfry = FRrb^ 
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Die Aussage von Schritt 4 isfc zu zeigen, also 

o%^)<sl Vs 2 <4 (13,22) 
Beweis ypa (13.22): Mit Voraussetzung (13.11) ergibt sich 

1 1 1 1 . 1 + e* 4ce* , A 

— + t > + T >c=4> — — > 1 — — - 1 < 0. 
4c* 4 Aqe 4 4ce* 1+e' 

Dalier ist ro streng mohoton fallend in s 2 . Weiterhin ist ro(Q) = > 0 t also 
1st m{$ 7 ) > 0 Vs 2 < $1, SehlieBlich steigt ( streng monoton in s 2 . Daraus folgt 
(13:22) wie folgt: (Die eirste Uiigleicliung ist die Ungleichimgskette vorn Anfangdes 
Beweises von Schritt 4, die letzte Gleichung ist aqui valent zu m(sl) = Q.) 

a 2 (tt, $?) < % 2 ) < = 5 2 v^ < 4 ? 

Beweis von Schritt 5: Es sei wieder ohne Einschrankung u > 0, also w > i?(tt,s) > 0 
mit Hilfssatz 11.5. Der Beweis hat zwei Teilschritte: 



Schritt 5a: 



Schritt 5b: 



1 nM) >* 



l+€ i V 1 ' " C 

Weil Y n^.HUfes^tz UJ8 fur ii < 0.63 unci «?■> 1 (also hach Schritt 2 fiir'alle 
(w, y^s) mii (u )t £f€ M) in 5 streng monoton steigt v ergibt sich zusammengesetzt: 

Beweis voa Schritt 5a: 

2/ 2x _ Org fe^gg^^ to) s 

(Der zweite Summand des Zahlers wird durch 0 abgeschatzt, der zweite Summand 
des Nenners riach Voraussetzung (13.12) durch ee<yj g jil ^(y)dP(y) : ) 

> (^^/(y-^ 2 ))^ MtJ 2(i/)rf?(y) _ 
- (l-e+«o)/5 Uff 2(y}(<P(j/) 

(e* = jQ- zuletzt Ersetzung von 0(u r s 2 ) durch 2?(tVy^s)/was den Ausdiuck nach 
Hilfssatz 11.1 mit x. s 1, dii = g u ^dP minimiert.) 
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Beweis von Schritt 5b: Mit c > c 0 , 0 < f* < =: m, y/ts > 1 und Hilfssatz 

M * VW,Sc) _i > m := VM)_I (,3.23, 

1 + e* c 1 + ro Co 

Unter Verwendung von (13.16) folgt 



M»3 < 



<9. 



Das heiBtj dafi min^<6^2& fc(ttjydurch das Minimum von ...fc(«)\an 626 aquidistanten 
Stiitzstelleri mit Abstand 0.001 um hodbistens: 9 * SM = 0.0045 uberschatzt wird. 
Damit ergibt sich 

min ft(u) > 0:0263 > 0. 

Mit (13.23) ergibt sich Schritt 5b, 

Beweis voa Schritt 6: Schritt 6 folgt aus Hilfssatz 11,2 mit $ = u U die$em Fall 
ist x = 1, womit die, Voraussetzung (11.5) direkt und (11.8) mit- Schritt 1 folgt. 
Voraussetziing (11.7) ist gehau Schritt 1 und (11.6) folgt aus der Stetigkeit voii H* 

auf A#i(^)« 

Bemerkung 13.5 Saiz 13.4 kdnnte auch einew anderen q > 1 und anderen Schran- 
kerf fur* c forinuliert werderi. Allefdings wiirde eitie Vergrofierung des Bereithesc der 
zulassigen c zur Folge haben, dafi q grSfier und damit nach (13.11) C kleiner gewdhlt 
wtrden mufite, so dafi die Voraussetzung (13.12) des Satzes schdrfer wiirde und der Satz 
auf weniger Verteilungen angewandt tverden kdrtnte. 



Beispiel 13-6 Es gelten dte Bezdchruin Es set 

Sei d:= |a L - a 2 |. Ffir c = 10* &> ^ bzgl. 'Q';:m%i 

\0{guQ) — ai| < 0.0139, 04 < a 2 (ft , Q) < L1S5. 
Fur c = L02(2ei + 1) = 4.3&3 urid d> 4.G42 existieren KQ-FPCl 1, 2; bzgLQ 
\0i9i> Q) - *i\ < 0.0515, 0.228 < a 2 {g u Q) < 1.330; 



Beweis: Es ist zu zeigen, dafi die Vpraussetzungen des Satzes 13.4 erffillt smd. Offenbar 
gilt (13.11) fur c = 10 und c = 4.383. Es folgt e* < 0.017 bzw. < 0.040. Sei ohne 
Einschrankung 

P =tf(a lt 1), H* = Af[a 2 < 1), «i = 0, a 2 = d > 0. 

H* ist stetig. Also ist nur noch Voraussetzung (13.12) nachzuprufen. Es sei 

$(m + s-cQ~<&(m-s--<f) 
v ' *(ro + s) .- $(m - s) 
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.Damit ist ^g^^;= J( : ^ $ } d% (13.12) ist also erfulltvwehn 

Cq> max J[m,\/c$>d). (13.24) 

Wegeri e == 5 1st eo = e*. Es gelten 

a/n *W ~~ ™ [*(m^5.Hic^-^)r - • ' 

dd jyrhSiU) - .«(m+#)-*(«»-*) 
Durqh Multiplikatibn mi^ $|ra;+ 5) - $(m - s) und Division durch $(ro-f s - d) - $(m - 

d) folgt 

i—J{mJ;dl> 0 & E(rnvs) - E(rh- d, s) > 0.; 
vrn 

Letzteres gilt wejgeiri d > 0 und Hilfssatz 11.7. Also wird 7(m, s,d) maximiert, indem m 
maxii^ wird, also irisbesoridere m > 0. Entsprechend 

—J(m r s, d) > Q S + (m— d,s) - £+(m t sj > 0. 

Nach Schritt 2 des Beweises zii Satz 13.4 gjk m € M 0 (e*) m < 0.63, also d — m >. 
maxMo(c) > tf. Also mit (11.11) und Hilfssatz 11.6: E+{m - d, s) = is^d - m, s) > 
E^(m, 3). Daher wird /(mys/d) mkdmiert, indem s maximal gewahlt wird. Zuletzt ist 

4iJ{™>i M) < 0 ^ E{m - d, 5) < 0. 
ad 

Das ist der Fall wegen Hilfssatz 11.5 und m— d < 0. Das bedeutet: 
c 0 > max Jim, y/cs, d) =5fe Vd 0 > d > 0 : e 0 > max: ^(mWV^i doL 

JEi&.gejgebeaes;;^ zu ermitteln. Dana sind die Voraussetzungen 

von Satz 13.4 erfiillt fiir do > d mit 

;;$§;= #1 J[maxiWo(€- ), max£^),d]. (13.25) 

In der folgenden Tabelle wiirde Ko(y/c$, e*) fur gegebenes $, e* mit dem Intervallhalbie- 
rung§yerfaiiren ermittdt. Kq(^) wurde durch das Maximum von Ko(y/c$ A €*} $us 100 
aquidistanteri Stutzstellen aus So(e*) approximiert. Die Losung d von (13.25) wurde mit: 
dem Intervdlhalbierungsverfahren ermittelti 
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min5 0 (€'') 


maxS 0 (O 




d 


c = 10 


0.017 


0.1 


2.967 


0.0926 


7.66 


0.01 


0.1 


1.639 


0.0405 


6.416 


0.005 


oa 


1.242 


0.0177 


6.118 


0.004 


0.1 


1,185 


0.0139 


6.108 


0.003 


0.1 


1.133 


0.0103 


6.124 


0.001 


0.1 


1.041 


0.0034 


6.32 


0.0003 


PI 


1.012 


0.001 


6.614 


c= 4.383 


0.04 


0.228. 


2.952 


0.1446 


5.493 


0.02 


0.228: 


1.494 


0.0687 


4.686 


0,015 


0,228 


1.33 


0.0515 


4.642 


0.01 


0.228 


1.198 , 


0.0344 


4.661 


0.002 


0.228 


1.034 


0.0069 


5.025 



Mit arialoger Rechriung konnte Satz 13.4 auch auf andere Mischungen zweier Normal- 
verteilungen angewendet warden, dJi. e ^ |, andere und unterschiedliche Varianzen. Bei 
Mischungen von iiiehr als zwei Komponenten wird es etwas komplizierter. 

Die hSchstmogliche Abweichung \(3{g, Q) - die Satz 134 liefert, 1st sehr klein. 
Die Sehr anken inr a 2 (g,Q) sind dagegen ziemiich groBziigig. OfFenbar ist der Satz auf 
weniger weit voneihander entfernte Mischungskomponenten anwendbar, wenn c kleirier 
gewahlt wird. Das deckt sich mit meiner Erfahrungin der Amyendung auf DatensStze: 
Mit kleinerem c werden weniger gut vorieiriarider getrenrite Fixpunktcluster gefunden. 
Leider hat eine kleine Wahl yon c den Nachteil, dafi haufig extreni viele Cluster gefunden 
werden, so dafi die Ausgabe des Verfahrens sehr unubersichtlich wird. 

Es folgen einige Kpasequenzen aus Satz 13.4. Ich gebe Bedingungen dafiir an, dafi ein 
KQ-FPGI $ mit jt?(5, Q) € M 0 (e*) -* {0 Q } existiert. d.h. der Lokationsparameter Q) 
appf oximativ FisKer-konsistent ist, Es gelteh die Bfezeichungeri von Satz 13.4, c sei fest, 
so dafi (13.11) Brfullt ist. Aufierdem sei 

Falls <7q yariiert schreibe ich Mo(e*, 0p) stattMo^Jj entsprechend Sofe*,^) und M\{£ Y al). 



Hilfssatz 13.7 Es gilt, 

a 0 \0 M^A) \ {A>j ¥}(*% a*) \ {ft}, 
^\0^5 0 (e-)\[f 1 ao]. 



Beweis: Die Grenzwertaussage fur Sb(e*) folgt aus der Definition vori S 0 (e*). Fur festes 
z* ist Ko( e ") endlich, also gelten die Aussagen fur a% nach Definition von M Q (e*), M^e*). 
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Weiter ist wegen der Monotonieeigenschaften von & 

I<o(e') < k Q sup k{ko t >/cs,e*) <0. 

Dafc monoton in e f steigt, steigt auch Kq schwach monoton in e*, also Motel) 3 Mo(^) 
fur el > 4. Mit y/cs > 1 fur is 2 € Sp(e*) und Hilfssatz 11.6 gilt insbesondere die Inklusion 

k 0 ~ E(k Qi 1) > ^Vemax5b(€*) (13.26) 

Mit Hilfssatz 11.4 steigt tc Q - J5(fcp; ; 1) streng monoton in k Q gegen 1, ist stetig in £ 0 
und es ist E(Q„1) = 0. Auflerdem konvergiert max5o{e*) fiir e* 0 gegen Fixr 
beiiebig/kleiries k 0 > 0 existiert also €3. so dafi (13 26) fur alle e* < c| erfiillt ist: Daher 
K* 0 {e*j -+ 0, M Q (z*) -> {&} fur c- ^ 0; 



Korollar 13.8 Existiert mit t > 0 cine Umgebung [#j - <r 0 (l + r),/3 0 + ?o(l + t)] uon 
/?o t aw/ der H m stetig ist, darin 

3e x > q Ve< e t 3e y (e),, KQ-FPCI g bzgl. Q(e, <%) : 
0& Q(e, ^)] € W(e)], cr 2 [ 5s Q(e, <rg)] € ; 5o[e*(e)]. 
e \ 0 ^ M 0 [e*(€)] VW, ^o[e*(e)} \ [#ag] . 



Beweis: Mit P "= J^i^D gilt 

inf P[rn m + V^s] - Pfiriax M 0 (e*) - era, max Mo(**) + ^o] =: v 

derm fur festen Intervallmittelpunkt m wird [m- y/d$,m+ y/cs] offenbar durch minimales 
$ am kiirzesten und fiir festes mtd P[m~ v/cs ? m + v^cs] durch maximales m wegeri 
der Monotonieeigenschaften von ^und der Symmetrie yon M 0 (€*j urn /? 0 minimiert Mit 

H*[rn - a/cs/tii + y/cs] ^ 1 _ 

P[m - v%, m + v^^] ~~ Fe- 
ist offenbar (13-12) erfullt. e* = ^ konvergiert mit c gegen 0 und ist fur genugend 
kleines € so klein, daB (13.11) erfiillt isti Mit Hilfssatz 13 .7 gilt irgendwann 

M x {<?) C [So;- *q(i +■*),/* + *o(l + 
Darin ist H m auch stetig auf M\{(£) und alles fplgt aus Satz 13.4 und Hilfssatz 13.7. 
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Korollar 13.9 1st fur festes e y e m und gegebenes g\ sogar 

V[m - \fcs, m + y/c$] z m € ATo(e*,cr*), s 2 6 (0 ; max So(c*M)] 
(13.12) erfullt, dann 

Vaf < qf 3 KQ-FPCIg bzgh Qfe a\) : 

4V0^Ai 0 (e%o|)\{ft}. 

Ffir 3ie Existenz eine$ solcheri a\ ist kirireichmd, dafi H* in einer Umgebung von fi Q 
eine beschrankte \- DicKte hat 



Beweis: Nach den Voraussetzungen ist fur t^ o\ Satz 13.4 anwendbar, denn H* ist auch 
stetig auf Mife\ of): Fur jedes a c € M x (e*) (aufier rip = sup Mi (e*); dann ersetze man 
unten das „+" durch ein „-") gUt mit (13,12): 

W{*ol < Jim iT[a 0 , a 0 + f ] < £q Jim P[a 0 , a 0 + r] = 0, 

da fiir r hiiireichend klein d 0 + § E Mojc") und f < ^/max5o(e% a?), so dafi [ao, ao +'rj 
die Form [ra - y/c$ y m 4- \/!cs], m;€ Mo(6*), < max So(e*> sf) tat. 

Fur <j\ < a\ ist Sq(e\a|) C (0,maxSq(*% a?)] und mit Hilfssatz 13,7 damit auch 
Mi(e* ? cr|) C Mi(^V^i)- Die Voraussetzungen fur Satz 13.4 sind fiir a 2 also fiir dieselben 
c 0i e* erfullt und M 0 (e*.a|) \ {/9b} mit of \ 0 folgt aus Hilfssatz 13.7. 

Hat H m eine beschrankte A-Dichte ft in einer Umgebung von #>, dann gilt fiir hin- 
reichend kleines a\y weil lim^^o Mi(e*\ o|) =. {$>}, 



Damit 



^,4 := sup h{yj < co. 



inf H*{rn-Jcs\m + s/cs] < gfft<*,crj B 



Der Nenner vpn B ist .^[^oC 15 *)] Definition von M 0 und damit unabhangig von of. 
Also konvergiert B fur af \ 0 gegen 0. 

Seien € 0f ef = so gegeben,.da8 (13.11) erfiillt ist. Dann kann o\ so klein gewahlt 
vverden. dafi B < e 0 . Damit ist die Voraussetzung des Korollars erfullt. 

13.3 Uberlappende Mischungen: Regression ohne Achsenab- 
schhitt 

In diesem Abschnitt ward ein zu Satz 13.4 analoges Resultat fur die lineare Regression 
ohne Achsenabschnitt bewieseri. Das bedeutet, dafi in diesem Abschnitt immer x € IR P 
und keine der Komponenten von x nach S x verteilt ist. Betrachtet wird erneut ein Modell 
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der Form Q = (1 — e)P + eH m : P 1st nun wieder eine gemeinsame Verteilung von x } y r 
wpbei die Regresspren a: ^dimensional normal verteilt und der Storterm y £'/?o davpn 
unabhangig nach A^g) verteilt sein sollen. if* soil eine Verteilung auf iR^ 1 sein, fur 
die die folgenden Voraussetzungen gelten, die spater prazisiert werden: 

H*lL) < e 0 P(4 (}\d(x)f\{x,yj € L) <k 

fiir alle Mengen L der Form {(jf 3?B) X < cs 2 } mit 0 aus einer Umgebung Ma von. 
£o uhd s 2 aus einer Umgebung So von (Tq;. d(ip) sei die standardisierte Entfernung der 
Regressoren x zu ihreni Erwartungswert unter P. eo und k sind gewisse Konstanten. 

Die erste Ungleichung besagt wie schon in Satz 13.4, dafi P und if* gut voneinander 
getrennt seiri miissen. Die zweite Ungleichung bedeutet dafi die Regressoren unter H* 
nicht zu weit, von denen von P entfernt sein durfen, Anderenfalls konnte H f eine Art 
.jHebelwirkurig" auf den zu P geliorigen Cluster haben. Dieses Problem entsteht durch 
die Verwendung des KQ-Regressipnsschatzers», der bekanntlich nicht robust 1st. Siehe 
dazu die Bemerkung am Ende des Beweises. Die obere Schranke k ist allerdings grofier 
al s 4 0 , s o dafi diese; Voraussetzung nur bei einer extrem „abgelegenen" Verteilung H* 
problematisch ist. 

Fur den fur die Anwendung interessanteren Fall der linearen Regression mit Achsen- 
abschnitt sind die Ergebnisse; komplementar: Satz 13J1 behandelt die Regression ohne 
Achsenabschnitt, Satz 13.4 behandelt eine Regression, die nur aus dem Achsenabschnitt 
besteht. Leider kann man durch Kombination dieser beiden Resultate nicht direkt ein 
Brgebnis fur die Regression mit Achsenabschnitt gewinnen. Zwar kann man den KQ- 
Schatzer einer linearen Regression durch eine Lokationsschatzung und einen KQ-Schatzer 
einer Regression durch den Ursprung berechrien, werih man die Daten geeignet trans- 
formiert. Es besteht aber keiin einfacher Zusammenhang zwischen den Fixpunktclustern 
dieser beiden Problems und denen des kombinierten Regressionsproblems mit Achsen- 
abschnitt; Die Ergebnisse konnen also hur Indizien dafiir sein, dafi auch im Problem mit 
Achsenabschnitt entsprechende Fixpunktcluster existieren. 

Wie im vorigen Abschnitt wird auch Satz 13.11 durch die Anwendung auf eine einfa- 
che Mischung von Normalverteilungs-Mpdellen illustriert werden (Beispiel 13.14). Erneut 
wird sicli zeigen, dafi die Theorie nur darin anwendbar ist ; wenn die Mischurigskomponen- 
ten sehr gut voneinander getrennt sind. Danach (Korollar 13.18 und 13.19) folgt wieder 
eine Untersuchung der Falle € \ 0, cTq \ 0. 

Bezeichnungen und Konstanten fur Satz 13.11: Set 

Pfry) = / 1(« < *)*(orf)(y - u%)dM [0}AA% {u) (13.27). 

wie im Mischiriodell mit zuifalligen Regressoren 3 (allerdings ohne Achsenabschnitt) . 
Dabei sei A eine invertierbare p x p-Matrix und a 0 > 0. 

Es werden Konstanten t, e f und eine Fbcpunktcluster-Justierkonstante c benotigt. die 
folgeride Ungleichungen erfiillen: 

0 < t < |, (13.28) 

rxsAtr 0.Q4256t»q+0^S87t a ) M ^ 00\ 

U ^ C - 4c(Ud2)(i + o ; 5025^)+(<r~l)0.0425m 2 (l+0.8587(2)t 
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^( i ^tJ8W+ 1 J( 1 + ^ + ^ (13-30) 
c 2 (e*) :■= 1 - (c - l)e* > 0. (13.31) 

Aus (13:30) folgt c > (2*j§ + l) = 4.2974. Damit ergibt sich aus (13.29) mit 0 < t < |: 

Ac 

Also sind (13.30) und (13.31) immer erfullt, werin c gemafi 



I + aok = 1331 - 01>c£1 



.00075(1.25)* 12 + 1 ] = 7.4065 (13-33) 

\ ; 0(vl.25) / 



gewahlt wird. Weiter gilt C2(e*) : < 1. 
Definiere fur {6\ s 2 ) € ZR P x [0 ? oo] ;> 

m * 2 > -'{(*.») € ift^ 1 : {y - ^) 2 < c5^. 

und weiter 

^° I a: >- M<*) J > 

Af Mo x iSb, /6 := IJ A 

Beinerktiiig 13.10 Urn die Voraussetzuhg (13.38) fdfihulieren zu konhen, mty? I Q rnefir 
bai] sein. Tatsachlich id 1$ abgeschlossen un&daherin IB?**. 

Beweis: Ichi zeige, dafi der Grenzwert jeder kdnvergenteri Polge aus in 7 0 liegt. Damit 
ist /q abgeschlossen nach zum Beispiel Satz 155.7 aus Heuser (1981). Sei also 

(^n, yn)n6lV € I$* r {jPn&n) ^n->po (*0:2/q): 

Flip: (^nii/n) gilt: 

Weiter gibt es r da M kompakt 1st eine Teilfolge 

Wegeh (# n - ' r- cs 2 € [— cmaxSo,0] kompakt, konnen die n m so gewahlt werden. 
dafi; 

~6^ m x n7n f ~csl m '= do € [-cmax5 0 ,0]. 

Die Punk t ion 

,/ : x IR+ h+ 2R, (*, A s 2 ) >4 (y - x'0) 2 - cs ? 

ist offenbar stetig. Also gilt 

/(*0, 2/0, 00, *o) = J™ (2/n m - On J* ~ C5 L = & < 0 
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Satz 13.11 (Regression ohne Achsenabschnitt, iiberlappende Mischung) Es 

gelten die eben eingefihrten Bezeicknungen und Voraussettungen. 1st nun 

Q(x,y) = (1 - e)P(x,y) + iH'{x,y), (13.34) 
0< € < 1, undH* 6 Vp+i erfulle 

Vs 2 £ So- 6 € Mq : 

ffWs^.^oW* 2 )), (13.35) 

H'{(y - V*)* = cs 2 } = 0 (13.36) 

E H . ( || A-^|| 4 | (*, j) 6 < (13-37) 

B r (||A-^|| 2 |(a: ) K)€/b) <oo, (13,38) 

dann 3 KQ-FPCI g bzgl Q rait 

0{g,Q)€M Q y(9>Q)eS d , (13.39) 



Beweis: Sei zunachst erg > 0* Wie im Beweis von Satz 13.4 soil Brouwers Fixpunktsatz 
angewendet werden. Aufgrund der Aquivarianzen der KQ-FPCI (Bemerkung 8.5) sei 
ohiie Einschrankurig /3 0 == 0, cr| = 1, A = I p . Sei / definiert wie in Bemerkung 8.4. 



c ' c 2 (e*). 

Nach Schritt 1 und Bemerkung 8.4 geniigt es zu zeigen, dafi M einen Fixpunkt von / 
ent halt. Schritt 2 und 3 bereiten Schritt 4 und 5 vor. die besagen, dafi die Einschrankung 
von / auf M eine Selbstabbildung ist, die nach Schritt 6 stetig ist. Da M als Produkt kom- 
pakter und konvexer Mengen wieder kqmpakt und kqnvex und wegen c > 1 > t^(€*) 9m U> Q, 
nichtleer ist, sichert erneut Brouwers Fixpunktsatz die Existenz eines Fixpunkfces von / 
in M \ 

Sei V{xL\ s) definiert wie in Abschriitt 11.2, 

m s 2 ) ••= 0(98,,*-. Qh ° 7 fr A := °H9e.sh Qh (13.40) 

(I 3 - 42 ) 

DtojWM := Ve v ,M - Vt,M). (13.44) 
Es werden folgende Rechnungen benotigt, die auch die Werte in (13.29) erklaren: 
k = 0.7089, k 2 = 0.5025, V(0, 1) = 0.2911, (1 - k) 2 = V(0., I) 2 = 0.0847, 

fc 2 V(0, l) 2 = 0.04256, (2 - V(0, l))fc 2 = 0.8587. (13.45) 
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Es folgen die Beweisschritte 

Schritt 1: ($, s 2 ) € Af =» g 0 j erfiillt (8.3) und (8.4). AuBerdem sind 
/ \\x\\ 2 90^dQ(x,y) < oo, J fg 9t ,*dQ{x, y) < oo. 

Schritt 2: 

W(Mo) := ||0 O || 2 + + |*||W - (^o) 2 " 2^o > 0. (13.46) 

Schritt 3: Aus Schritt 2 folgt unter s > 0: 

tninK ff0 . ;j (^ < Vj o ,,(5 0 ) < 1 + Poll 2 , 

PII >Po||=^Vi 0i ^) > V» 0 ,^o). 

Schritt 4: 

(4 S 2 )€M^||/3(%^ 2 )||<t 

Schritt 5: 

(fes 2 )eM=»a 2 (%s 2 )e5 0 . 

Schritt 6: / ist stetig auf M. 
Schritt 7: Der Satz gilt auch fiir <r| = 0. 
Beweis von Schritt 1: Sei (0,s 2 ) € M, also auch s 2 > 0. Damit: 

also erfiillt g 9>s i (8.3). 

Nun zeige ich die Erfiilltheit der Voraussetzungen von Hilfssatz 11.1, der (8.4) 
sichert, mit dR = gg^dQ. 

Natiirlich ist f\\x\\ 2 dP(x,y) < oo und damit auch / \\x 2 \\g 9tS i{x,y)dP(x, y) < oo. 
Nach Voraussetzuhg (13.38) ist danh schlieSlich auch 

/ lAfaA* Mi 1 - ( ) p + f > < °°- 

Wegen g 9 ,,i(x, v) = 1[|2/ - z'^l < v^ s ] I st 

/ y 2 98A*,y) d QM) S / + Vcs) 2 09^(s,y)<fQ(z,i/). 



(13.47) 

(13.48) 
(13.49) 
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[x'Q -f \fcs) 2 und dairiit auch y 2 sind mit ||i|| 2 /l-integrierbar. 
Angenommen, / xx'gs^x. y)dQ{x, y) ware nicht invertierbar. Dann 

3q £ m? : 0 = V f xx'g 0 jfa y)dQ(x, y)q = 
also Q\cf x = 0|js,,2 (Xj jr) = 1] = 1. 

Dann ware aber: 

0 - / l(q , x ? 0)g g s.(x,y)dQ{x,y) > 
> (} - t) OjgeAx, v)dPh v) = 

= (i - <) > ° 

Also; folgt (8.4) aus Hilfssatz 11.1. 

Beweis von Schritt 2: Seien O,0 O 6 JR P , s > 0, 

r 0i6 (x,y) ■- a(y - ff 0 x) + b{y - &*) fur a, 6 <= iR. (13.50) 

Sei fiir aile in dieserh Beweisschritt aufiauchenden E-Werte, Varianzen und Kova- 
rianzen £ {{x , ,y)') = P = M{o M . Bezeichne fiir k : M p+1 H> JR 

S*S%T' 

also den, bedingten Erwartungswert von h(x^y) unter g0 Oi$ 2(x t y) ~ 1. Dann 1st: 

Zur Berechnung von V* Oia (0): Es gilt 

( -4 - # « U ] ( * ) = ( r!j(^) ) * {13 ' 51) 
Dieser Vefctor ist also - falls a # 0 qder b # 0> biyariat nqrmalverteilt mit 

Cov((y - ■:»).) 2=5 ; 4 + .6 + (a*0 + ») # flb. (13-52) 

Mit der Wahl a := -(1 + 8%) } b := 1 f |j0 o || 2 sind (y - ^rc) und r^z, j) stocha- 
stisch unabhangig, da; die Kovarianz dann 6 ist. Insbesondere sind (y — %x) und 
^a,&(^ } y) dann auch bedingt unter g$ 0tS *(x,y) = l((y — 0' Q x) 2 < cs 2 ) = 1 stocha- 
stisch unabhangig, was zunachst gezeigt wird: Sei tq :=U-6qX, /(r 0 ) := 00o,«»(?i.y) 
(letzteres hangt von (i, yj nur durcli r 0 ab), seien A, B -6 2B- Dann gilt: 

pr<r c J *• fV *A <= Rl fU \ - 11 - 1 i (rtfjEA)l(r at ft(g t ri6B)/(ro)dPtey) _ 

r[^o t.Airafifay) 6 ^l/( r o) - ij - i< //(fjpfry) " 

= J7(ro)^V,y) /WW 6 B)dP(x,y) - 

= P[r 0 € i<j/(ni) = l]P[r ft »fe»)6.B] = 
= P[ro € i4|/(r 0 ) = l]PWx } y) G B|/(r 0 ) = l], 
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da r a ,i,(x,y) und r 0 stochastisch unabliangig unter P sind. Also folgt die Urir 
abhangigkeit yon r 0( j,(z. y) und ro bedingt unter /(r 0 ) = 1. 

Weiter ergibt sich aus (13.50): 

E K»(r,y) 2 ] = a 2 (l + ||0„|| 2 ) + 2a6(l + 6%) + fc 2 (l + ||0|| 2 ) = 

= (1 + ||* 0 || 2 ) [(1 + li*o|| 2 )(l + ||0|| 2 ) - (1 + m 2 ] • (13-53) 

Zur Bereclmung von V$^(6) wird die Unabhangigkeit von r a fi(x, y) und r 0 (und 
also von r a ,t,(x, y) und <ta,, 4 s) benutzt: 

E[r^(x l yft = E 9 [r^(x,yW= 
= a 2 V^(0o) - 2abE 9 \(y - ff 0 x)(y - (fx)) + tfV^M- (13 54) 

Weiter 1st 

0 = E[r atb (x,y)]= E 9 [faM id) = yKfo - *o*) = 

= £ 3 [a(t,- <W+6(y - £s)'Cy.-flSx)] => 

- V*x)(y - e'x)} = -a^ o ,,(0 a ). 

Einsetzen in (13:54) und auflosen nach : V$ 0 , s ($): 

V eo ,M = Sfohvft+itVU® - (13 . 55) 

Nun fehlt noch 

1/ in \ - ffa-g' 0 ») 2 i((g-o , o») 2 <« 2 )^(x,y) 

"MWf - ] H( 9 -6> oX )3< ct *)dP{x, v ) - 

? ^^feS^y - o+imwo.** (13.56) 

(letztere Gleichung durch Substitution t = > " ), und aus (13.53) ergibt sich, 

^[r 0 ^y) 2 ] = (i + ll^oll 2 )^(Mo), 

also (13.55) (13:46). Zuletzt bringt die Cauchy-Schwarz-Ungieichung noch 

IICIW > m)\ also 
W(6 i 9 0 )>\\9 0 \\ 2 + \\e\\' l -26%> 

> Poll 2 +" WP - 2fMM = (IN - Poll) 2 > 0. (13.57) 

Beweis von Schritt 3: Fur alle Teile dieses Beweisschrittes wird V(0> $$ 0 ) < 1 ge- 
braucht, was aus Hilfssatz 11,7 folgt. 

Zuersc folgt daraus (13.47). denn 

min V eo M < V eo M = (1 + \\Go\\ 2 )V(0, s $0 ), (13.58) 

9. 

wqbei dieJetzte Gleichung bereits als (13.56) gezeigt wurde. 
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Um (13.48) zu zeigen, beweise ich zuefst 

9% < 0 => Vi 0 , s (-6) < V> o ,,(0), also (13.59) 
9 minimiert V 9a , s (9) 4 9% > 0. (13.60) 

Beweis von (13.50): Sei 0'0 O < 0. Dann errechnet man mit Schritt 2 

= w(-e, e 0 ) - w(e, 8 0 ) + [(l - - (i + <W]K(o, 
= mo{i-v(ois e6 ))<o. 

Beweis von. (13.43): Mit '§i^= ■■a^]^y^^^t^^^D^^iS^;.g^ mehrere gibt) 
gilt fur beliebiges 6 mit Hilfe von Schritt 2 und (13.60): 

v m%v w v> fl*g&)'-Vft,*b) Y(o,se 0 ) 

Nunzeige ich noch (13.49). Es gilt W(0o,0o) = 0„s6 daB Schritt 2 

V«o:»(pq) - ^bM?) = — ; 14 ||goll 2 — ~ — ' " 

bringt: Fur p|| .-< ||0|| ist das kleiner als 0: Falls [(1 + ijfyjj 2 ) 2 - (1 + Wo) 2 ] > 0, 
dann fblgt fur den Zahler von (13.61) mit Hilfe von V(0,s« o ) < 1: 

:(1 + Poll 2 ) 2 - (i +m?W$i°k) - w$M$ 
< [(i+ li^pii 2 ) 2 - (i +9%fi-w(?,eo) = 

= 2^o|| 2 + Poll 4 - 2^o - (Wo) 2 - W(9Jo) = (1 + iieoli 2 )(||^o|| 2 - II* I 2 ) < 0. 

Anderenfalls ist mit [(1 + ||0„|| 2 ) 2 - (1 + W 0 ) 2 ] auch der Zahler von (13.61) und 
damit der garize Ausdruck kleiner als 0. 



Beweis von Schritt 4: Teil 1: Wir betrachten zuerst den Fall kt < ||0 O || < t, k defi- 
niert in (13.43). Gezeigt wird: 

ill > INI ^VeoA^)>Ve 0 ,,(k9 Q A- (13.62) 

11/3(^0: 5 2 ) II <* folgt aus (13.62) nach Definition ($.6), denn 

/?(% I s 2 )=afgminV r tf0 ,,(-9x,c)- 

Um (.13.62) zu beweisen, benotigt man i'm Falle J g eo ^t(x,y)dH*(x, y) > 0: 

(13.63) 

AWWo)>4c*V. (13.64) 
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Beweis von (13.63): 

Siv-^^A^W 1 '^ _ Jiy-^o?-( fcg o- g ») ,J; } a 3gn..a(^.g)^'{^.g) _ 

_ /(t>^) 2 ^.2(y.y)d« > W) _ 0 /($>-fl^)(fc <? o- 9 °)"' J gg n . < ?( J ^) <ftf, ( J! '») ■ 

(Der erste Term ist aufgrund der Definition von g 9o>i i nicht groSer als cs 2 , der dritte 
Term yard mit der Cauchy-Schwarz-Ungleichung abgeschatzt:) 

<*? +2(1 - fc )g > /^-'^->^;<^ + 



±r\ _ Mill/) j|2 lN!!«bidfi^£M' < 



(Es gilt <%,«*(£; y) = 1 ==f |j \- x%\ < y/ca und 1 - A; > 0. Damit kann aucb der 
zweite Term abgeschatzt werden:) 



< cs 2 + 



2(1 - k)^cs\\9 0 \\^^L^+ 

Poll T^jji^ ^ 



(Nun wende icH cs 2 > ^cs > 1 an. Das gilt wegen a 2 € So- Die letzte Abschatzung 
wird nackher gezeigt.} 

Ziir letzten Abschatzung: (13.37) besagi fur den dritten Term: 

da M 0 3 0 O , also ||0 O || 2 < i und (1 - kf- 0.0847. Die Abschatzung (13.65) folgt, 
weil damit und mit Ljapunovs Ungleichung audi der zweite Term abgeschatzt 
werden kann: 

(i-fc)po||£H.[||x|| | gg0 ,,,(z,y) = l]< 

< ^(i - fc) 2 ||^|| 2 £?H-[INII 2 \9eoA*i y)~ i] < i- 

Beweis von (13 64): Mit Schritt 2 und 3 errechnet man 

kdo) = VeoM ~ Ve 6 A^ 0 ) > V $ M) - V, 0 , 9 (**o) = 
_ -vt>(go,fcg(>)+f(i+l|goll a j^-(i+fc|ige|| i ) 2 1v(0,» 0 o) _ 

~ _ 

_ -(l+fc'-2lQ||?o||^[2(l-fc)||go|l j +(l-fc 3 )||<>o|| < lK(0,« ( , n ) _ 

- i+RP 
= i+pip - ^v^o. I Poll;. 

2^ h) ._ (l-fc)6 3 !(24-(l|fc?y)V.;o,o)-H-tl 
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Wegen s 2 € S 0 und ||0 O || <^ ist. % > 1. Mit Hilfssatz 11.7 steigt Z monoton in a. 
Setzt man 1 fur s$ 0 ein, so steigt 

_ (l-/f) 2 & 2 [l + (l + fc)6 2 l 

z &b) - YTfc5- 

mit auch in b = \\9 0 \\ > 0, wobei ||0 O || > fc< = (1 - K(0. l))i vorausgesetzt war. 
Also erbalten wir 

Aeo, s )(%^o)>^(l.*0 = 
t?(i-t<(o,i)) 3 v(b,i)?[i+(2-v(o,i))(i-V(o,i))»t'j ri r1 „ fi7 . 

= mCTCT^ (13 - 67} 

Wie icb gleich zeigen werde, gilt 

(13,29) =*> A > 4csV, (13.68) 

also (13.64). 

Beweis von (13.63): Sei B := 33^3), also mit (13.45) 

_ 0.04256^(1 + 0.85S7t 2 ) 
4c(l + t 2 )(H-0;5025« 2 ) i 

Dann gilt mit sup.So = x _[^ )e . : 

(13,29) * £ -< T ^* 
# [14 (c - 1)B]V < B < [1 - (c- l)e*]B = 3^- 
^e*4csup5 0 < At 

also. (13,68) fiir s 2 G.5 0 . 

(13.62) folgt jetzi mit. (13.63) und (13.64): 

K 9o ,,(d,€)-V (?0l ,(Wo,€) = 
(1-0 J - B e 0 .» 3 (*.*)<"»(*.»)+« J S, p ,p(-.ii)rfff-(x.») - 

(Kiiizen durfch (l.-e) /^^(x, j/)dP(x,2/). Im Falle f g e9tl> t(x,y)dH t (x, yj = 0 sind 
alleTerme mit tf* null, anderenfalls abschatzen: J(y - &^a;) 2 p^ t ,«(x,j/)rfff*(ar t y) 
durch (13.63), f(y - 6'x) 2 9b,, s i{x, y)dH'(x, y) durch 0:) 

%o..)(^^0)-^ 2 (t . J () / g9o<a(?)p)dp( , >y) ^ 
1 t /%..'( J -») <fg, < J '») 
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(Der Beweis dieser Ungleichung wird weiter unten hachgeliefert; die Argumentation 
is t ahnlich wie in Schritt 2 itn Beweis von Satz 13.4.) 

1 + e* 

Zusammengesetzt mit (13.64) ergibt sich 

w vm*m > %*>mt±££ > o, (.3.70) 

also (13.62) ini Falle kt < \\$q\\ < t. Nbch nachzutragen ist der Beweis von (13.69) 
(letzte Ungleichung): Seien d > 6, H,b, a > 0,e > b. Dann gilt: 

a — bh ad — bhe + ae - bhd ad — 6fie:+ ab — ehd _ a — eh 
d + b = (d + 6)(d + e) ~ (d + 6)(rf + e) ~ d + e' 

Die Ungleichung (13.69) fplgt nun mit 

d := 1, e;:= Co, A := 4cs 2 , 
wobei (13.35) besagt, daB e > b. a > 0 gilt wegen (13.64). d. > 0,&,-fe" > 0 sind klar, 

Teil 2: Nun sei noch Pd|| < kt. Gezeigt werden raufi wieder *)|| < t, was 

diesmal aus 

\\e\\ >t # %,(*, 4- VeoAh, c) > o (Wi); 

folgt. Sei also: M tM Um (13.71) zu zeigen, wird 

iW<W>4€* cs 2 (13.72) 

benotigt. 

Beweis von (13.72): 

Fall 1: fl'^o > Poll 2 - Daraus folgt mit Schritt 2 

Am>.(M»1- ITpof " - T+PolF' 

(13.57) bringt dann 

n rt 4Y>lbMs 'OzM . ^K(Q,1) 3 

' 0j - 1 + ||<?ol| 2 1 + * 2 i 2 ~ 1 + (1 - V (0, 1)) 2 * 2 ' 

Das ist aber grSCer als Di aus (13.67), denn 

(1 - V(0, l)) 2 [l + (2 - V(0, 1))(1 - V(0, 1))V] = 0.6104 < 1. 
(13,68) bringt dann %,,,)(^ > 4e*cs 2 . 
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Fall 2: 0 < M 0 < \\6 Q \\ 2 , also (1 + ff9 0 ) 2 - (1 + ||0 O || 2 ) 2 < 0. Wegen V(0, s eQ ) < 1 
(Hilfssatz 11.7) gilt 

wie in Fall 1. 
Pall 3: 0'6 O < 0. also mit (13.59) 

Ye^m > H 0 ,,H), also > D^-BA), 

und Fall 1 Oder 2 kann auf -0 angewendet werden. 

Beweis von (13.71): Die folgende Rechnung ist identisch zu der Umformung, die zu 
(13.68). fiihrtl Als einziger Unterschied kann statt (13.63) diesmal sogar 

= ** " ^) 2 l(y- <W * ^1 < ^ (13,73) 

abgeschatzt werden. 

V8 0 M4-yeoM-*}> 

Aus (13,72) folgt D 2 > 0, also (13.71). 

Beweis von Schritt 5: Sei j|0 o $ < t\ s 2 € So. Es soil a 2 ^,^) min^ ^ o ,,(0i,e) 
^bge^^t-wercien. Zun&bst gilt 

o- 2 (5b,5 2 ) < V^(tfo,e) < i±M±i^ ; (13.74) 

die zweite Ungleichung erhalt man wie folgt: 

V^(% e) = 

(Ktfrzen dufch (1 - e) / g Q ^2{x,y)dP{x, y) und abschatzen durch (13.73):) 

+ (i-«)/ff <0 ..i(x.»)d^,y) 



13 FIXPVNKTCL USTERINDIKATOREN IN MISCHMODELLEN 



127 



(Die fplgende Ungleichung folgt mit (13.20) aus dem Beweis von Satz 13.4 t a. := 

V «>M ft - i^f^^Tv d ■■= * : = <% h : = Die Voraussetzung. 
e > b folgt aus (13.35), weiter gilt ft > E P {(y - %x) 2 \{y - B^xf < c$ 7 } = £.) 

1 + e " ~ l + e* ' 

die letzte Ungleichung folgt mit (13.47).. also gilt (13.74). Aus (13.74) ergibt sicli 
die Implikation: 

_ (i4> a )(i+(i"c)c*^*ciii4-t 3 ) _ i+e* 

cLh. <^(5 0 y5 2 ) wird nicht grofier als die Obergrenze von Sq. 
Weiter gilt: 

o 2 (9 0y s 2 )±^ 
(Abschatzung f{y - x'Ofge^ {x,y)dH"{x, y) > 0) 



> mmV0 Ot ,{8)- 



* 0,n 7 (l'--:<)7'5fc^(*»!r)*P (x;y) + e/5tf6^V)^(FvJ/) " 
(Kiirzen diirch (i-cj/ij / ) 0iS s(x 1 j/)dP(i,y), abschatzen diirch (13.35) und (13.48):) 

-(l + C -)(l + Po|| 2 ) '^ S| ' 

Die; Abschatzung von <7 2 (0 O > s 2 ) nacli unten wird sich aus Vi(inf Si) > inf So erge- 
beri, dehri wegen Hilfissatz 11.7 is t K(0, s) streng; monoton wachsend in s, so dafi 
fur s 2 > inf So gilt: 

<r 2 (0o,s 2 ) > Vi(s 2 ) > V x {intSo) > in(S Q . 

Dazu zeige ich V\(s 2 ) > s 2 unter der Voraussetzung 

0<se o <Vul?. (13.75) 

Wegea ||& 0 || < < ist diese Voraussetzung fur s 2 < inf S 0 und insbesondere fur 
s 2 = inf 5q erfullt, so dafi dann alles gezeigt ist. 

Definiere b := 1 + ||0 O || 2 , also = ^/f$, h(s) := -a* und 

h 0 {s] := [l -6(1 + *V] [*(s* 0 ) -$(^ 0 )] ~25^(5, 0 ). 
Mit (11.12) ist 

h(s) > 0 ft 0 («) > 0. 
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Mit £$ei = yfl ist weiter 

h^s) = -256(1 + e') ms 9o ) - #(-**)] + 
+ 11 - 6(1 + €')s 2 ] 2^(5 ?q ) - 2^( Stf0 )(l - = 
= 26(1 + e')s (^fs - ljfeOy - [*(**) ~ *(-**)]) = 

= 2(14 ? 1VW ((pifey - 1 j m\ =: % 

H: ist grofier als 0: Aufgrund von (13.30) und der Voraussetzung \\9 Q \\ < t r also. 
6? < (1 + * ? ) 2 , wird Vi verkleinert, wenn + (1 + e*)6? fur c eingesptzt; 

wird. badurch folgt V 2 > 6 aus 

n y(0)y(gg o ) _ gfooH > Q 

w^ aus (13.75) r d.h. > 1, folgt. 

Weiter gift;* = 0 >> $ 0O = 0 /i(0) =• fe 0 (6) = 0. Ffir $ > 0 ist nun t£ > 0, 
also 7^(5) > 0, damit k^s) > 0 und schiieBlich audi h($) > 0. was hach Definition 
Vi (is 2 ) > s 2 impliziert. 

Beweis von Schritt 6: SchVitt 6 folgt aus Hilfesatz 1L2. Dabei sind die ybraussetzun- 
gen |ll.5) v (11.7) und (11.8) wegen Schritt 1 erfUllt. Die Voraussetzungen (13.38) 
und (13.36) gel ten fur H* und auch fur die Normalverteilung F, also fur Q. Damit 
tet auch (11.6) erfiilitv 

Beweis yon Schritt 7: Sei nun q\ = 0 u rid bhne Eihschrankung 0 O = 0j also P{# ; = 
6} = L 0ami 1st M "= . 0)}. Es gilt f 56,6(^^)^2^^) > 1- e > 0, also erfiUlt. 
5q 0 (8-3); In Schritt 1 geht die Vor aussetzung crj > 0 mi r in den Nadiweis voh (8.3) : 
ein, mit derselben Argumentation wie dort erfullt aber 50,6 (8.4): Weiterhin gilt 

jffif- x^) 2 i(/ = 0)^ y); = 0 ^ d = 0; 

da fur 0^0 

/(I- *'0) 2 l(y 2 = 0)<fPRy) = J&(tfdJ^^)M > Pi 
sodaG Mq3 0(0,0) ..= 0 .= o^O) € Damit ist $ 0 ,o KQ-FPCI bzgL Q. 

Bemerkung 13.12 Die Vertei/«n$ der Regressdren hat in der Verteilung P in diesem 
Fall immer den Erwdrtungswert 0. Das liegt daran, dajt furx € IR P mit Ex = 0 tin- 
ier linearen Transfdrtnationen der Form D : jR p4;i iR p+1 a«5 Bemerkung 2.4 immer 
E{Tx) = 0 fftit. Satz 13.11 ware, mit einigem forrrialen Aufwand aber aiich duf Regres- 
3orenverteilungen der Form M^am) ™ tibertragen, indem das Regressionsproblem ohne 
Achsenabschnitt als Problem mit {x,y) € JR P x {1} x fit mit (5 p +\ = 0 formuliert wiirde. 
Die Menge V aus (2.2) mufite dann auf diejenigen Trcnsformationen beschrankt wer- 
den, die /3 p+ i = 0 erhalten urid die Definition und der A quivdrianznachweisfur KQ-FPCI 
mufiten enisprechend modifiziert werden. 
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Bemerkung 13.13 Die Voraussetzung (13 37) deutet daraufhin, dafi das KQ-Fixpwnkt- 
cluster- Verfahren Schmerigkeiten haben konrite, Cluster zu finden, wenn gleichzeitig an- 
dere Cluster odef einzelne Punkte mit exlreni entfernteri Regressofen im Datensdtz sind. 
{13 31) wird nur in Sckriil 4 benutzt, um 

E H < \^-^k9of\ge 0 ^{xS = *] < 4cs* 

zu zeigen. Wiirde man das KQ-RegressionsJunktional durch ein Funktional ersetzen. das: 
erne beschrdhkte Funktiqn der Residuen ahstdtt ihres Quadrates rninimieren wurde, so 
konnte dieser Erwattungswert ohne die zusatzliche Voraussetzung bescHrankt wefden. 

Viele robusW Refressiomfixnklionale sind aiif diese Weise defihiert, ziim Beispiel 
MM- od^ S-S^Mzer (siehe Abscfmttt 3.5.1). Siehe dazu auch Bemerkung 8.2. 

Es folgt die Anwendung des Satzes 13-11. Ich werde hier ganz bestimmte Mischun- 
gen von Regressionsyerteilungen mit uormalverteilten Regresspren behandeln, namlich 
„kreuzfdrmige u Mbdelle: Eirie Komponente rait Steigung 1, die andere mit Steigung -1 ; 
Regresspren fur beide Komppnenten jV(0, l)-verteilt, gleiche Varianz <7q der Storterme, 
Anteil jeder Kbmpbiiente am Gesamtmodell |. Die Punkte 1-98 des kunstlichen Daten- 
satzes aus Abschnitt 10 (Abbildung 8) koniten auf diese Weise erzeugt worden sein. 
Ich werde zeigen, daB fur beide Komppnenten je ein KQ-FPCI vorhanden ist, wenn #6 
hinreichend klein ist. 



Beispiel 13.14 Falls c - 


10, p = l,ft = l,& = -l, 




Q = \Qi + |Q 2 , wobei 


Qi(x,y) = 


IJ. l(z < s)* ((W j)(y - z'$i)dN(z), i = 1, 2,; 


a 0 < 0.000 


0323; {bzw. &q < 0.0000503 fur c = 7.407),. 


[dann eodstieren KQ-FPCi 


' g u i= 1,2, mit 




- pi\ < 0.2a 0 . 0.104 < 1.00037 


(few. 0 


.14042: < 2%£1 < 1.00036 /fir c = 7.407). 
9 



Beweis: Es gelteri die Bezeichnuhgen aus Satz 13.11. Mit e ==■ | gilt c* = "co- Es sei bhrie 
Einschrankung P :.= QuH* :.= Q 2 . Es soil also die Existenz eines KQ-FPCI, der zu 
Qi gehort, gezeigt werden, Q 2 wird als ; Ausreifierverteilung behandelt. Die urogekehrte 
Situation ist ySllig analog. Es sind nun also (vgl. (13.27)) A = l,/? 0 — 1. 

Sei ein 0 < t < § yorgegeben. t gibt in Satz 13.11 die hochsfcmSgliche Abweichung> 
des Regressionsparameters von Qi zum zugehorigen KQ-FPCI an. Weiter sei e* gemaB 
Voraussetzung (13.29) so groB wje moglich gewahlt: 

s _ 0.04256^(1 -f 0.8587^) 

€ ~ 4c(l + &){! + 0.5025t 2 ) + (c - l)0.04256t 2 (l + 0.8587*2) ' 

c = 10 und c = 7.407 erfiiilen (13.33). Zur Anwendung von Satz 13.11: Voraussetzung 
(13.36) ist fur Normalverteilungen erfiillt. Voraussetzung (13.38) ist erfullt, weil s 2 > 
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0 H'{L(9, s 2 ))} > 0, also auch H'{I 0 ) > 0, und damit 

E u - (x 2 ) = E 4 v{x 2 ) = 1=>E H . (x 2 | {x,y) € Jo) < oo. 

Ich zeige nun: 

.• Voraussetzung (13.37) ist erfullt fur <tq < 1. 

• Voraussetzung (13.35) ist erfullt, wetin o$ hinreichend klein ist. 

Damit konhen dann die Werte aus dem Beispiel numeriscli berechhet werdeii. 

Zu Voraussetzung (13.37): Sei C(x,y) = <? 2 ; £(«.,«) = JV(o,i 2 j. Dann gilt far 6 6 2R: 

C{x,y- bx) = £(u,-(l + b)u + a 0 t>), (13.76) 

denn y - 6a: = y + x - (1 + 6)x. Aufierdera ist £(y + x) = -A/(o>j|) und i ist von y + ic 
stochastiscjr unabhangig unter 

Abzuschatzen ist nun EH>[x 2 \{y - bx) 2 < cs 2 ] fur (6,s 2 j € M. Es gilt mit (13.76): 

E H . m(y - bxf<a?) = Efr^ [u\(u - f$ < = 
(mit den Bezeichnungen aus Abschnitt 1L2) 

(Fiir (w, ; z) € 2R x .JR* gilt nach Hilfssatz 11.7: V(w, z) < 1, nach Hilfssatz 11.5: 0 < 
E(w, z)\ £ |tu| mit £(0*z) = 0 sowie £(-1^2) = -£(u,2) nach (11.11).) 

< 1 + (4/^ = 1+ <lH < 2 < 

fur erg < i (was in diesem Beispiel gilt) und 6. > O. Auch. das gilt, da 6 € Mo, d.h. 
|6- 1| < oat: Damit ist Voraussetzung ( 13.37) erfullt. 

Nun zu Voraussetzung (13.35). Zu zeigen ist: Fur hinreichend kleines tr 0 gilt < eo 
fur alle £(6,s 2 ) mit (6,s 2 ) € M, 

Mit (13.76) und der analogen Aussage fur Q x ist 

Qi(Ub.s*)) _ ,f l((-(t+6)«4g6i>) 2 <c« i ) t tV(t.) ( t ) V( C ) _ 
<?i(I(M 2 )) /l(((l-t)«+ ff0 v)l<ei2)ctV(a)(i,V'(t.) 

" i \ -^1 - /(M,ffo) ' 
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Gesucht ist nun sup ( ^ )eM f(h s y a Q )> Wegen 1 - icr 0 < b < 1 + too ist y(l - 6) 2 + u% 
maximal mit |1 - b\ = ta 0 und ^(1 + 6) 2 + <r| ist minimal mit 6=1- to 0 - Also 

sup /(£>, 5, <7o) = sup /(l - £<7 0 ,:s, a 0 ) = 

$ ( m Sc* \ _ $ f \ 
= SUD - , r—r v / / y V — " SUp /o($<h<To)- 

/o(j»oi cro) ist stetig in s 0 € 5i und <tq. Offensichtlich ist /b(sp, 6) = 0 Vso € Si- Weiterhin 
gilt 



0 vfl+IW _ 

9f0 A /4-4<<T 0 +(t 3 +l)<rg 



>o 



Mr oo < : fyf < §, denndann ist 4-4to 0 +(i 2 +l}^ > 3 und ^ J^^ 1)<yg < 3J1 < 

Das bedeutet, dafi /o(so>ao) fur beliebiges festes % G 5i mono ton gegen 0 fallt, falls 
<tq % Q. Also; fallt auch sup^, fQ(s Q ,a 0 ) schwach monotony Angenommen, es galte 
nicht 

lim sup / 0 (*o, cro) = 0". (13.77) 
Dann gSbe es aufgrund der Kompaktheit yon Si x [p } ~] ein d € und eine Foige 

(5 n; (7n)Hn4co «Q), SO dafi 

lim /o(5 nj ftj = ft? 0, also / 0 (d, 0) -.ft ^ 0 

wegen der Stetigkeit von /<>; nicht sein kann. Also gilt (13.77). 

Itisbesondere wird sup / 0 damit natiirlicli auch bei hinreichend kleinem <7 Q kleirier als 
t* > 0, wpmit die: Voraus^tzung (13.35) des Satzes 13.11 erfiillt ist; 

Urn die konkreteh Werte zu berechneh, habe ich jeweis fur gegebenes t y c,e* dutch 
InteryaUhalbierungsiteration den Wert' <r 0 berechnet,. fur den gilt: 



sup /o($o,aoj = e\ 



Dahei habe ich fur gegebenes cr 0 das Supremum von /o($o, 0*0) uber *o durch den hochsten 
Wert an Stiitzstellen im Abstand 0.01 approximiert. Man erhalt foigende Werte: 
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t 




minSo 


max bo 

»%• 


(T 0 


c = 10 


; 0.5 

0.2 
04 
0.05 


0.0002293 
0.0000415 
0.0000106 
0.0000027 


0.1250 
0.1040 
0.1010: 
0.1003 


1.0021 
1.0004 

l.oodi 

1.0000 


0.0001623 
0.0000323 
0.0000083 
0.0000021 


c-7.40 


7 


0,5 

oa 

0.05 


0.0003094 

ti.odd.056b 

0,0000143 
0.0000036 


01688: 
0.1404' 
0.1364 

0:1354} 


1.0020 
1.0004 
1.0001 
1.0000 


0.0002534 
0.0000503 
0.0000131 
0.0000033 



Bemerkung 13.15 Urn die Werte von mih Sq und max 5 0 mtfOq zuMrgleichen, musseri 
sit dutch 0 9795 (im Fall c = 10J geteilt werden. Siehe dazu Bemerkung 12.2. 

Bemerkung 13.16 Die KQ-FPCI, deren Existenz hier nachgewiesen wutde, vmrden 
auch erholten bleibpn, wenn nefcen <3i und Q$ noch ^f^chungsk^mponenten vorfahdm 
warm, die keike Masse duf die Menge J 0 legen (zum Beispiel einpunktverteilte Ausrei- 
-fier)} Das &Jlt sich analog zu deri S&tzen in Abschnitt 13.1 au$ Korollar 7.6 folgern. 
Entspi^eiuies gilt fiir Betspid M fl; 

Es^jzeigt sich 5 ; daB im Beispiel crj extrem klein seih muB, urn die Voraussetzurigeri des 
Satzes 13.11 zu erfuHen. Wurde; man zum Beispiel njPunkte nach Q\ erzeugen, so ware 
optisch nicht festzustellen, dafi sie tiberhaupt von der durch fii defihierteh Gerade ab- 
weidien. Die A ussage ist insqfern mehr als Grenzwertaussage interessant: Fiir a% %, Q 
existieren KQ-FPCI i = 1,2 mit $^0) 6 i% A^i {^}. Solche Aussagetf sind 
auf diese Weise audi fiir beliebige andere.Mischungen , von Normal verteilungen (Modell 
3| zii erhalteh ? d.h. iir aridere PVoportionen als |, andere; die allerdirigs paarweise 
verschieden sein mii^en, und mit: : etw^s mehr Aufwand auch fur mehr als zwei Korii- 
ponenteh und p > 1. In Analbgie zum Lokationsfall folgen nun wieder Bedingungen fiir 
appimim^ fiir /?<>• Dabei gelten die Bezeichntingeh von 

Satz 13 li und 

mit P gem^ (13.27): Fur gegebenes f € (o, |] sei immer 

0.04256t 2 (l + 0.8587t 2 ) . 

€ " € * : ~ 4c(l + i 2 )(l + 0.5025* 2 ) + (c - l)0.04256i 2 (l .+ 0.8587**) 

30 grofi wie moglich. Falls i t Oo variabel sind, schreibe ich iiri folgenden auch M 0 (t) bzw. 
M 0 (t (Tq) statt M 0 , entsprecliend fur ^ 0 und /q. 0 sei fest, so dafi (13.33) erfiillt ist, 
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Hilfssatz 13,17 Es gilt 




t\ o => Mo(t) \ {#>}-. /o(0 \{(y - *W<<r 2 }. 


<•'(«) \ P. 











Beweis: Der Nenner N(t) von c*(i) ist grofler ist als Ac und fur den Zahler Z(t) gilt 

Z'(i) = 2 * 0.04256f + 4 * 0.8587 * 0.04256** > AZ{t), 
da | < |, Also mit jV'fl) < 8c(1.5025 + f)t + (c - l)f: 



Aufierdem gilt lim^o iV(t) = 4c, lim e _>o ■£(*) = 0, also t\Q=> % 0. Damit folgen 
die Konvergetizaussagen fiber Mo und 56 nach Definition. Weiter steigt sup5o(i,Co) 
streng monoton in und a* und fallt fur .ogj\ 0 gegen 0. Daraus folgen die Aussagen 
fiber Zb. 



Korollar 13.18 Exisiiert exn 0 < i < §,. so dafi fur H* (13.36) und (13.37) fur 
(6, s 2 ) € M 0 {t) x (^,supS 0 (t)] some (13.38) erfiaWsvnd, dahn 

3e t > 0 Ve< e, 34(c), KQ-FPCI g bzgl. Q(e,ol) : 
Q(e, <7 0 2 )) € M 0 [t(e)], *%Q(e,ag)] 6 5 0 [t(e)]. 
c \0 iWo[ t (e)] \ s {/3qJ*, So[*(e)] r* 4 • 



Beweis: Mit P gemafi (13.27) gilt 

WgU« - lV 5 c8 '> > P <« + "*# £ » = : p " 

da Vcs > 1. Mit 

H*{{y- ?0) 2 <cs 2 } \ 
P{{y - x<6) 2 < cs*} - P t ~ e ° 

ist offenbar (13.35) erfullt. Fiir hinreicbend kleines e > 0 kann f(e) v/egen Hilfssatz 13.17 
und der Stetigkeit von e*(t(c)) so gewahlt werden, dafi e*(i(e))' = gj-. *(e) korivergiert 
mit e gegen 0 und die Voraussetzungen (13.36), (13.37) und (13.38) sind mit Hilfssatz 
13.17 auchfur t 2 < t\ Srfiilit, sobaid sie fur h erfullt sind, denn infS 0 {*2) > ^ Also, 
folgt alles aus Satz 13.11 und Hiifcsatz 13.17. 
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Korollar 13,19 Exisiieri fur gegebenes, a\ ein 0 < t < 5, so dafi fur H' (13,35), 
(13.36) und (13.37) fur (M 2 ) eM 0 (t,al) x (O.supSoM)] some (13.38) erfulU strut, 
dann 

Vol < 4 3 KQ-FPCtg : : /?[fl ? Q(c^|)] € ^(i,*!), ^fc<fotf)Te S 0 (U 2 2 j. 



Beweis: Naeh den Vqraussetzungen ist fur £ 0 ,of Satz 13.11 anweridbar. Fur a\ < c\ ist 
5 0 (<, erf) C (6$ max S 0 (i, a\)\ und itiit Hilfssatz 13.17 danrit auch J 0 (i a\) C 7 0 (<v^i )* Die 
Voraussetzungen fiir Setz 13.11 sind fur cr| also fiir dieselben e 0 , * erfullt und M Q (t, of) \ 
{&} mit af \ 0 folgt aus Hilfcsatz 13.17. 

Bemerkung 13»2d Falls 0 auf einer Menge {{y - dPo) 2 < b] mit 6 > & eine be- 
schrankte X^-Dichfebesitzt, sind die Voraussetzvngen (13.35) und (13.36) fur (0, s 1 ) € 
iMb(&7i) X (0. sup £ 0 (*, a?)]- fur geeignete of s t analog zu Korollar 13/9 erfullt Fiir die 
Anwendbdrkeit von Korollar 13.19 musseri dann allerdings noch (13.37) und (13 38) 
gefqrdert werden. 
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Teil IV 

Simulationeil 

14 Einfuhrung: Simulationeil 

14.1 Die Rolle der Simalationeri bei der Beurteilung der Ver- 



Zur Analyse der hier interessierenden Datensatze bei unbekannter Clusterzahl scheinen 
mir im wesentlichen die drei Verfahren brauchbar zu ein f die scKbn in Abschnitt 10 ver- 
wendet wurden: Mischmodell-Maximum Likelihqod-Schatzung (MML) gemafi Abschnitt 
3.3, Fixed Partition Model-MI^Schatzuhg (PPML) gemafi Abschnitt 3.4, jeweils mit der 
dort diskutierten Schatzung der Clusterzahl sowie diie Fixpunktciusteranaiyse (FPCA). 
Ieh fasse kiirz die vorhandenen theoretischen Resultate iiber die drei Verfahren zusam- 
raen: 

• Fur die FPCA steht ein konyergenter Algorithmus zur Verfugung; mit dem einige, 
aber nicht notwendig alle KQ-FPCY eines Datensatzes gefunden werden konnen. 
Ein KQ-FPCV ist ein kanonischer Schatzer eines KQ-FPCI. Die Existenz von KQ- 
FPCI bzgl verscMedener Verteilungen wurde nachgewiesen. Die Abweichung ihrer 
Parameter fi(g, P) i a 2 {g y P) von den entsprechenden Modellparametern einer Vef- 
teilungskomponente der Fonn (13.27) wurde beschrankt. Die Satze sind aber nur 
anwendbar, wena diese Verteilungskomponente sehr gut von den weiteren Ver- 
teilungsanteilen getrennt ist. Insbesondere wurde Existenz und Eindeutigkeit im 



• Fur MML steht $in Aigorithmus, zur Verfugung; der ein lokales Maximum der Li- 
kelihood liefert. Der Vefdacht. das VerMiren liefere bei bekannter Clusterzahl kbn- 
sistente und asymptotisch normale Parametersc^atzer^ ist hegruqdet, aber nicht 
bewiesen. Bewfe"sen: ist eme.soldifc Aussage. mir. fur den LokationsfalL Ebensp ste^ 
hen fur die Schatzung der Anzahl der Cluster nur Resultate im Lokations- und 
Wechselpunktproblem zur Verfugung; nur im Wechselpunktproblem, das mit dem 
MML- Verfahren wenig zu tun hat, gibt es ein Konsisterizresultat. 

• Fur FPML steht ein Algorithmus zur Verfugung; der ein lokales Maximum der 
Likelihood liefert Uber das asymptotische Verhalten des Schatzers gibt es keine 
Ergebnisse. Er ist vvie im Lokatiorisfall verzerrt. Die: Verzerrung liefie sich unter 
Umstanden abschatzen, ahnlich wie in Teil III dieser Arbeit fur die FPCA. Ftir die 
Schatzung der Zahl der Cluster gibt es keine theoretische Untermauerung. auch 
nicht im LokationsfalL 

Die Theorie liefert also bislang wenig Anhaltepunkte fur die Qualitatsbeurteilung der 
Verfahren. Urn sich eine begriindete Vorstellung davon zu machen, wie die Verfahren 
sich bei Daten aus den uritersuckteri Modellen verhalten, reichen die Ergebnisse nicht 
aus. Eine solche Vorstellung ist aber vonnSten, um die Verfahren in der Praxis sinnvoll 
einsetzen zu kSnnen, und um sich anhand vdrgegebener Situationen fur eine bestimmte 
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Methode zu entscheiden. Die.Entfernung zwischen den theoretischen Ergebnissen und 
der Anwendung 1st bei der Problems tellung dieser Arbeit also groB. Die Simulationen 
soilen helfen, diese Entfernung zu iiberbriicken. 

Fur die Anwendbarkeit der Verfahren sihd folgende Fragen relevant v zu deren Beant- 
wortung die Simulationen beitragen sollen: 

• Woyon hangt es ab : ob ein Verfahren brauchbar istoder nicht? Was sind die jewei- 
ligen Starken und Schwachen? 

• Produzieren die Verfahren sinnvolle Resultate wenigstens in den idealen Modellsi- 
tuationen, fiir die sie speziell entwickelt wurden? 

• Wie sieht der Vergleich zwischen den Verfahren aus? Was ist in welcher Situation 
vorzuziehen? 

• Was passiert. wenn man die Verfahren in Situationen einsetzt, fiir die sie nicht 
geschaffen sind? Konkret zuin Beispiel: Kann man mit dein ML-ScMtzer aus dem 
Mischmqdell 1 auch sinnvoll Parameter schStzen, wenn die Zuordnungsunabhangig- 
keit verletzt ist (vgl. Bemerkung 2.2)? Was passiert bei Ausreifiern? 

Die Aussagefahigkeit von Simulationen fur reale Datensituationen ist iminer problema- 
tisch, da simuiierte Datensatze in unrealistischer Weise den Modellvoraussetzungen fol- 
gen. 

Der Zusammenharig zwischen Simulationen und Theorie ist ebenfalls problematisch, 
da mit Simulationen nur ausgewahlte Spezialfalle untersucht werden korihen. Aridferer- 
seits konnen die Simulationen Anbaltspunkte dafiir geben, ob sich die vorhandenen theo- 
retischen Resultate ith Verhalten der Verfahren bei konkreten Datensatzen widerspiegeln 
und welche weiteren theoretischen Aussagen moglich erscheinen: 

• Existieren in Datensatzen normalerweise FPGV, die den FPCI aus Teil III entspre- 
chen? 

• Was passiert bei steigender S tichprobengroBe? Machen die M M L-Par amet erschat- 
zungeh und die Clusterzahlschatzungen einen konsistenten Eiudruck? 

• Wie wirkt sich die Verzerrung der FPML-Schatzer und FPCA-Parameter bei iiber- 
lappendeh Clustern aus? Veirschwindet sie im Vergleich zur Varianz? 

Fiir das MML- Verfahren fiihrten DeSarbo und Cron (1989) eine Simulation durch. Diese 
Simulation ist allerdings nicht mit meinen Simulationen vergleichbar, da die Autoren von 
bekannter Clusterzahl ausgingen und andere Kenngrofieh verwendeteh (siehe Abschnitt 
14.2). 

14-2 Uberlegungen zura Versuchsaufbau 

In Abschnitt 15 werden die Simulationen genau beschrieben, d.h. die verglichenen Ver- 
fahren, die Modellsituationen und die erhobenen Statistiken. Hierzu nun einige Vpriiber- 
legungen: 

Alle Verfahren werden jeweils nur in einer Variante verglichen. Die Frage nach bp- 
timaler Wahl der fiir ein bestimmtes, Verfahren verwendeteh Parameter (Anzahl der 
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Iterationen pro Datensatz; Wahl Yon c bei den Fixpunktclustern) wird nicht behandelt. 
Weiterhin beschranke ich mich auf den Fall unbekaunter Clusterzahl; anderenfalls wiirda 
die Anivendung von Fixpunktclustern keinen Sinn ergebeu, deiin wesentliche Information 
bliebe ungenutzt. Die Storterme werden ;immer unabhangig normalverteilt gewahlt. 

Die Arizahi der denkbaren iiiteressanten Modellsituatibnen fur die Simulationen ist 
sehr.hoch. Die Dimension p, die Stichprobengrofie n und die Anzahl der Komponenten 
$ sind freie Parameter. Die Modellcluster 20 konnen gleiche Oder unterschiediiche Grofie 
und gleiche oder unterscbiedliche Storvarianz a 2 haben. Weiterhin hangen die Ergebnisse 
stark von den Regressionsparametern ab. Diese Parameter bestiminen, wie die Cluster 
sich zueinander verhaUen: Sie konnen zum Beispiel parallel liegen oder sich kreuz^n und 
damn entsprechend grofiere Uberschneidungen haben. Auch die Frage, ob und wie stark 
sich die Eegressbren fiir die einzeken Cluster untersclieiden, spielt eine grofie Rolle. 

Bei den hier durdigeMhrten Simulationen liegt der Schwerpunkt auf Situations mit 
gleichartigen Clustern (gleiche Grofie, gleiche Storvarianz). Die Regressionsparameter 
werden meistens zufallig gewahlt, spezielle Situationen mit zwei Clustern (parallel (iber 
Kreuz) werden aber mit vorgegebenen Regressionsparametern simuliert, um den EinfluB 
der Konstellation zu untersuchen. Fast alle Situationen werden mil vier verschiedenen 
StichprobengroBen simuliert, so dafi die Entwieklung der Ergebnisse bei steigendem n zu 
verfolgen ist. 

Fast alle Simulationen beruhen auf Daten, die nach Modell 4 erzeugt werden, d,h. 
es gibt immer eine feste Partition der Punkte zu den Clustern und die Regressoreh sind 
zufallig; Zwar wird dieses Modell in der Theorie nicht behandelt, aber es eignet sich gut 
fur allgemeine Vergleiche; Zum etiien mufi kerne bestimmte Konstellation von Regres- 
spren vorausgesetzt werden 21 . Zum anderen ermoglicht eine feste Partition eine genaue 
Untersuchung der Zubrdnung der Punkte: zu den Clustern. Das ist mit den Clusterpro-- 
portionen aus Mischmodellen nicht so einfach moglich. Die Klassifikation der Punkte 
ist interessanter als die Proportionsschatzung 22 , weil letztere auch zufallig kprrekt sein 
kann, wenn die sonstigen Parameterschatzungen eine grofie Abweicliung von den Mo- 
deliparametern haben und also eigentlich ganz andere Cluster geschStzt werden. Die 
Proportionsschatzung wird in den Simulationen nicht uritersucht. 

Vpr allem interessieren mich Modellsituationen, in denen ein deutliches Muster zu 
firiden ist. Im Hinblick auf die Brauchbarkeit der Verfahren zur Analyse von Daten 
ist fiir mich die Erkennung deutiicher Muster ein wichtigeres Kriterium als die relativ 
gute Parameterschatzung- in Situationen, in denen fragwurdig ist, ob mehrere lineare 
Regressionscluster ein angemessenes Modell zur Besclireibung des Datensatzes liefern. 
Daher wird die Storvarianz meistens im Vergleich zur Varianz der Regressoren sehr klein 
gewahlt (0.01 oder 0.001 zu 1). Zur Illustration: Abbildung 10 zeigt links ein Beispiel 
mit drei gleich grofien Clustern. jeder mit Storvarianz 0.1. Der Datensatz wurde nach 
Konstellation IrandB 23 erzeugt. Die Daten rechts entstanden im Prinzip nach demsel- 
ben Mechanismus (lrandll3), nur mit Storvarianz 0.01. Man kann sich dariiber streiten, 

20 Die Regressionsverteilungen, die in einer Fixed Partition- Verteilung - hier entsprechend Modell 4 - 
als Randverteilungen fur die einzelnen ( 6 / auftauchen, definieren die ^Modellcluster". Ein Modellclu- 
ster ist bestimmt durch / : 7(t) = (0,a 2 ,G)}. 

21 Allerdings ist eine Verteilungsvoraussetzungnatarlich auch wilikQrlich. 

22 Die Proportionsschatzung ist die Schatzung der Mischungsanteile t i = 1, . . . , 8 in den Mischmo- 
dellen 3 und 1. 

23 Nfiheres zur Schreibweise findet sich in der Beschreibung der Konstellationen in Abschnitt 15.2. 
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ob im linken Fall ein s? deutliches Muster" vorliegt Mehrere, unabhSngige menschliche 
Testaugeh rieten angesichts dieses Bildes die richtige Konstellation. Andererseits scheint 
das menschliche Auge auch dazu zu neigen, implizit und fiir diesen Fall korrekterweise 
gleiche Storvariarizen vorauszusetzeh, was die Verfahren nicht wissen. Jedenfails ist es 
ofFenbax nicht nur fiir ein automatisiertes Verfahren schwierig, eine verhunftige Klas- 
sifikation der Punkte in die Clustern vorzunehmen. Meistens wird in den Simulationen 
also mit kleineren Storvariahzen, <i.h. deutlicheren Mustern gearbeitet. In Abschnitt 16.3 
findet man jedoch auch die Ergebnisse der Simulation mit irandl3. 
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Abbildung 10: Daten aus lrandl3 und lrandlI3 (n(l) = 50) 

Model! 4 hangt mitderi anderen Modellen folgendermafien zusammen: Bedingt unter 
festem (xj)?e/ ist (y&zi gernafi Model) 2 verteilt, also nach den Voraussetzuhgen der 
Fixed Partition-ML-Schatzung. Waren die Clusterzuordnungen 7(2), i 6 / unabhangig 
multinomialverteilt. so ware {xuVt) nach Modell 3 verteilt; Wareh die Regressorenver- 
teilungen G dann noch fiir alle (#, a*, G) G *y(I) gleich, so hatte (y,) t€ / bedingt unter 
gegebenem {xj)i<£i eine Verteilung gem&B Modell 1. also entsprechend den Voraussetzun- 
gen der Mischmodell~ML-Schatzung. 

Zu den erhobenen Statist iken: Ich habe mich gegen Verzerrung (Bias) utd mittle- 
ren quadratischen Fehler (MSE) der Parameterschatzungen als Kenngrofien entschieden. 
denn diese Mafie sind hochst urirdbust. Wenn ein Verfahren in eirter bestimmten Cluster- 
situation sehr selten die Konstellation der Duster vollig falsch einschatzt, beeinflussen 
diese Falle den Bias und MSE der garizen Simulation. Letztlich wurde dann nicht gemes- 
sen. wie haufig ein Verfahren gut abschneidet, sondern nur, wie schlecht es abschneidet, 
wenn es schlecht abschneidet. Dieser Effekt erzeugt zum Beispiel in den Simulationen yon 
DeSarbo und Cron (1988) haufig sehr hohe MSEs. Weiter ist zu beriicksichtigen, dafi hier 
Verfahren Yerglichen werden, die keine einheitliche Ausgabe haben: FPML schatzt eine 
Partition. MML schatzt Clusterproportionen und die von Fixpunktclustern gesch&tzte 
Clusterzahl ist von anderer Qualitat als die der anderen Verfahren, weil beliebige Uber- 
schneidungen erlaubt sind. Zum Beispiel ktfnnte das Fixpunktclusterverfahren in einer 
Konstellation mit drei Clustern neben den drei korrekten Clustern noch sieben weitere 
finden. 

Ich arbeite daher mit „groberen a Statistiken. die beschreiben sollen, ob das Verfah- 
ren die; allgemeine Struktur des Datensatzes erkennt. Es wird nur festgestellt, ob ein 
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Verfahren einen bestimmten Cluster korrekt findet oder nicht. Dafiir werden dann die 
Haufigkeiten erhoben. Was heifit nun „ korrekt gefunden"? Dafiir werden mehrere Krite- 
rien verwendet, die in Abschnitt 15.3 formal defihiert werden: 

• Das ?: ^Kriterium u entscheidet danach, ob der geschatzte ftegressionsparameter p 
den entsprechenden Clusterparameter gut apprqximiert. Esisfe sinnvoll, ein Krite- 
rium zu verwenden, das nicht von a 2 abhangt, denh es 1st mcglich, daB die Uber- 
sqhneidung der Cluster den Storvariauazschatzer stark yerzerrt, audi wenn die grobe 
Clus terstruktur richtig erkannt wird. 

• Das „#— a-Kriterium" entscheidet danach, pb Regressions- und Skalenparameter 
gut ^pproximiert werden. 

• Dais Zubrdnungskri terium 4 * harigt von der Zahl der fehlklassifizierten Punkte ab. 
Das sind die Punkte, die nach Modeilvoraussetzung zum Cluster gehdren miifiten, 
aber nicht hereinklassifiziert werden und die; Punkte, die dem Cluster zugeordnet 
\yerden, aber nach Modellvoraussetzung nicht dazugehoren. Wahrend die ersten 
beiden Kriterien die Qualitat der Parameterschatzungen messen, mifit das Zuord- 
nungskriterium die Qualitat der Klassifikation. Je nadi Anweridung kann das eine 
oder das andere yqrrangiges Ziel der Datenanalyse sein. 

Alle vom Verfahren gefundenen Cluster werden rait alien Modellclustern verglichen. Das 
bedeutet insbesondere, dafi die ML- Verfahren Cluster korrekt finden konnen, wenn sie 
die Clusterzahl falsch einschatzen. Audi kann theoretisch, bei selir ahnlichen Parameterri 
der Modellcluster, ein einzelner vom Verfahren gefundener Cluster mehrere Modellcluster 
gleichzeitig korrekt finden. 

Aufierdem wird die Verteilung der Anzahl der gefundenen Cluster bzw. die geschatzte 
Clusterzahl erhoben. Zu beachten ist, dafi die Vergleichbarkeit der Statistikeu iiber Fix- 
punktcluster begrenzt 1st: Weil das Verfahren normalerw r eise mehr Cluster findet ais die 
„korrekten u , was durchaus dem Sinn der FPCA entspricht, darf die Anzahl der gefunde- 
nen Cluster nicht als Schatziing interpretiert werden. Es; ist zu erwarteri, dafi sie hoher 
liegt als bei den Ii4L-Verfahren. Wenn die FPCA einen Cluster korrekt findet, kann es 
andererseits schwierig sein, ihn in der Ausgabe des Verfahrens als ^relevant" zu erkennen, 
weil er unter Umstanden unter vielen weiteren gefundenen Fixpunktclustern versteckt 
ist. Die Simulatiohsergebnisse fur die Parameter der korrekt gefundenen Cluster sind 
also bei Fixpunktclustern kritischer zu beurteilen als bei den anderen Verfahren, die 
Clusteranzahlen hirigegen groBzugiger. 

Nicht jede der erhobenen Statistiken ist in jedem Fall sinnvoll. Zum Beispiel sind in 
vielen Datenkonstellationen alle Cluster symmetrisch, d.h. sie haben dieselbe Grofie urid 
Stprvarianz sowie symmetrische Regressionsparameter. In diesen Fallen ist es sinnlos, die 
FindungshSufigkeiten uach den einzelnen Clustern aufzuschliisseln, weil die Situation fur 
alle Cluster symmetriseh ist. 

Abschnitt 16 enthalt nicht die vollstandigen Ausgabeu der Simulationen, sondern die 
Ergebnisse sind komprimiert. Die Zusammenfassungen werden dort aber jeweils explizit 
erklart. 
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15 Beschreibung der Simulationen 

15.1 Die Verfahren 

15.1.1 Fixpunktclusteranalyse (FPCA) 

KQ-Fixpunktciiistervektoreri aus Abschnitt 8.2 warden nach Algorithmus 2 aus; A!>- 
schnitt 9 berechnet. Der Algorithmus konvergiert fur jeden der in der Simulation generier- 
ten Datensatze. Zuerst wird die Iteration mil $° = 1 gestartet, also rait dem kompletten 
Datensatz. Danach warden fur jede weitere Iteration p + 3 Punkte (xik.yijkz&.^p+z}; 
zufallig ausgewahlt, so daB gf k = 1 falls k e {1, ... • ,p + 3} und gf = 0 sonst. Die Anzahl 
der Iterationen pro Datensatz betragt 100 + 40p 2 . 

Bemerkuhg 15.1 Ahgenomfnen eih Datensatz hatte Siichprobehgrofieh und enthielie 
einen Modellcluster der Grofie n\ < n. Wetter angenommen, es gabe einen FPC, der die- 
sern Modellcluster dppwximativ ehtsprache, Meine Erfahrung zeigt, daft der Algorithmus 
fast immer dieseh FPC findet, wenn alle m Punkte des Iterationsstartes (m < n) aiis 
den ni Punkten des Modeltclusters kommeri, und fast nie sonst Die Wahrscheinlichkeit, 
beirh Ziehen ohhe Zurucklegen die m Punkte gehau aus den hi Punkten des Clusters zu 
wdhlen, ist 

v ' gjj n\(ni - m)\ 

1st n\ nur wenig grofier als m, so ist P(m) extrem klein. Deshalb ist es sinnvoll t die 
Anzahl der Punkte f mit denen die Iteration beginnt, so klein wie moglich zu wahlen. Ich 
wahle m = p + 3, weil bei m ~ p + 2 die WahrscheinUchkeit noch sehr grofi isi, fur den 
ersteh KQ-Schatzer, demur auf diesen m Punkten befuht,, anndhernd Residuenskala 0 
zu erhalten. 

Was passiert nun fiir steigendes p, zum Beispiel beira Ubergang von p aufp + If Es 
i $i P p^p4-3) 2) ~ n'Jp^ & ^y wenn n und hi gerhessen an p grofi sind. Die Wahrscheih- 
Uchkeiti .etricn; Cluster 'der Grofie m aus n Punkten zu finden t wird qho bet steigendem 
p exponentiell kleiner. 

Wollte man zum Beispiel die Hdufigkeit r mit der ein Cluster mit ~f = | m grofien 
Stichproben iiri Mittel gefundeh wird, dpproorimativ gleichhalten, so wiirde sick kZ p mit 
geeignetem k als Iterationsanzahl qnbieten. Das fuhrt aber bet grofiem p zu hicht mehr 
dkzepiablen Rechenzeiien (sieHe Abschnitt 15.1.4)- Ich habemich daker fur quadraiisches 
Wachstum entschieden. 

Als MindestclustergroCe wird 2(p+3) gewahlt: Iterationsdurchgange, die auf kleiriere Clu* 
ster fiihren, werden in der Ausgabe ignoriert. Die Festlegung einer Mindestclustergrpfie 
ist sinnvoll. da 'sehr kleine Teildatensatze haufig zufallig sehr gut durch eine gemeinsa- 
me Hyperebene angepaCt werden konnen und dadurch einen irrelevanten FPC bilden. 
Weiter ist c = 10 (siehe dazu Abschnitt 8.2). 

Die Skalenschatzung <x 2 (g) fiir jeden FPCV g wurde entsprechend Benierkung 12.2 
durch 0.9795 geteilt, urn fiir Fisherkonsistenz im Falle homogener Populationen zu sorgen. 
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15.1.2 Mischmodell-ML (MML) 

Die LSsungen des Mischmodell^ML-Verfahrens werden mit dem EM-Algorithmus nach 
DeSarbb. und Cron (1988) aus Abschnitt 3.3 berechnet, Dabei werden nacheinander die 
Losungen fur 1 bis 6 Cluster berechnet, bzw. bis 4 Cluster falls n < 6(p-f 2). Die optimale 
Clusterzahl wird mit dem BIG (3.1) berechnet. 

Bemerkung 15.2 Die Schdi^ung der Clusterzahl mit dem BICyfihrkin 94 Fallen zu 
eirier zum Teil deutlichen Uber- und in 7 Fallen zu eiher teichteri Unterschdizung der 
Clusterzahl, jeweils im Mittel uber die Simulationslaufe. Neunmal wurde die richtige 
Clusterzahl im Mittel auf zwei Nachkommastelleh gendu getroffen Nach Bemerfa 3.2 
ist, daher zu erwarten, dafi das AIC (3.4) Wrh deutlich schlechter abgeschrtitten hatte. 
Das hat sich in einigen Testdurchldufen auch bestdtigt; insbesondere scheint das AIC 
unbrquchbar zu se%rt y um eine homogene Population ••- nur em Cluster - zu erkenneri, 
falls n < 100. 

Aus Zeitgriinden wird pro Datensatz und Clusterzahl nur eine Iteration durchgefuhrt 
(siehe Abschnitt 151.4). Bei mehreren Iterationen waren bessere Ergebnisse rnoglicb 
gewesen, denn die Wahrscheinlichkeit, das globale Maximum der Likelihood zu finden, 
ware hoher gewesen. Zur Startpartition: Fiir i— 1. . . . , n wird gleichverteilt j G {1, . . -. , s} 
ausgelost. sbdafi = 1. Die anderen i kl werden gleich Null gesetzt. Dieses Verfahren 
wird so lange wiederholt, bis jedem der s Cluster mindestens p + 2 Punkte zugeteilt 
sind. Als untere Schranke fur die dj\ j E {1*. ..,$} wird 10~ 3 gewahlt. Eine Iteration 
wird beendet. wenn sich die Loglikelihood in einem Iterationsschritt um weniger als 
10~ 6 verbessert. Um numerische Probleine zu vermeiden, wird die Iteration abgebrochen 
und nicht wiederholt, wenn der Anteil Zj. j e {l l?vv ,$} fur einen Cluster kleiner als 
10~ 4 ist oder es fur eiaeri Cluster j € {1, . . . , s} weniger als p + 2 Punkte gibt, so dafi 
€ij > 10 T5 ,i e {!. , . . ,ti}. In diesen Fallen wird die entsprechende Clusterzahl als nicht 
optimal gev/ertet. 

Fur die Statistiken in der Simulation wird fiir das MischmodeU-ML- Verfahren eine 
Klassifikation der Punkte in die Clustern benotigt. die nach beendeter Iteration fiir 
t= 1, . . . , n vorgenommen wird gemaB 

CvML(i) :~ argmax%. (15,1) 

15.1.3 Fixed Partition-ML (FPML) 

Die LSsungen des Fixed Partition-ML- VerfaErens werden mit dem in Abschnitt 3.4 be- 
schriebenen Algorithmus berechnet. Dabei werden nacheinander die Losungen fiir 1 bis 
6 Cluster berechnet, bzw. bis 4 Cluster falls h < 6(p + 2). Die optimale Clusterzahl 
wird mit dem modifizierten BIC (3.11) berechnet Die Anzahl der Iterationsdurchgange 
pro Datensatz und Clusterzahl ist abgerundet ^7^5, wobei 5 die aktiielle Clusterzahl 
bezeichnet 

Bemerkung 15.3 Eine testweise Vergrofierung der Anzahl der Iterationsdurchgange 
bringt keine nennenswerten Verbe3serungen; aus Zeitgriinden ware das aber unproblema- 
tisch gewesen (siehe Abschnitt 15.1.4)- Allgemein benotigt das Verfahren mit steigendem 
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$ mehr und mit sieigendem n weniger Iterationen, urn zu giiteri Losungen zu kbiriirien. 
Das spiegelt sich in der von fnir gewahtien Zahl der Durchgqnge wieder.. 

Die Ergebnisse der Sthatzuhg der Anzahl der Cluster durch das Kriteriiim (3.11) 
sind aiisgezeichriet. Ich habe vorher das] AIC und BIG getestet) wobei ich k(s) we im 
MischmodelUML' Verfahren (Abschnitt 3.3) gewdhlt habe. Die Ergebnisse waren unbrauch- 
bar: Die Qb&t^ moglich (d.h; liter 6) geschatzt.- tyas 

Hegt d&fdh;, <&& Pairarrt'etcr • i = 1,. . .,n von einer anieren: Art sift&-:ak die] 
anderen, T«€(^n;,jPammef ep: jhw'AnzaB ^^jtrimtyti sie 8inii(ij'anzzM ihr Wet- 
iibfm<Mwachst rriit. s. MH Kriterivm habe ich ver$ucht r ,. das:,m hrUbMcfUige^ 

Ich hqbequch einige Ttsts durchgefiihrt, in denen stdtt des Faktors 0.7 die Werte 0.5 
und 1 wiwendetwurden,, was eherzu Uber- bzw. Unterschqtzungen fiihiie. E$ ; iMober 
festzuhatien, dafi ich die Wahl des KHteriurrti (3:11) fur kaurh begriihdet halfe. Esfurik- 
Xioniertnur uberraschmd, gut Dab?iisizu beqchten, da£ mpglichery eise eine Erhdhung 
tter^e^ doff (lie Clusterzahl vom Verfahren falschlicherweise hbher 

eingeschdtzi wird: Die ^^rsi^einH^keit, zufdllig Losungen zu finden, in defter* einzelr 
he kleihe Cluster eine sekr kleine hesiduensfcala haben, steigtbei rnehr lieraitonen und 
mehr Clustern. parous- ^He^ sich eine sehr hohe Likelihood und ddrriit eveniuell eine 
Uberschat^ngider VliJ^ter^dhi^r^ben. Die nur ernpirisch gezeigte QmlUB de$ KrUer^ 
urns >^ def Itetationszaht ab. 

Die Startpartition wird- so ermittelt wie im Mtechmodell-ML- Verfahren, wobei ,= ; 
j ■ e{j = 1 . Die Iteration wird abgebrochen und nicht wiederholt, werin Cluster aiiftau- 
cheri, die ^m|er ais ^ + 2 P'uhkte enthaiten. Falls alle Iterationen fur eine i^timmte 
Clusterzahl mii diesem Ereignis eiideni wird die Clusterzahl als nicht' optimal gewertet. 
Ansonsten gibt es keine numeriscken Probleme. 

jy&k4> Geschfvindigkeit^ 

Um einen Eindruck zu bekpmnien. wie schnell sich die yarfahreri rechnen l^s|§n, habe ich 
in vier Simulation^Situatidheh die Rechenzeiten (CPU-Zeit auf IBM Risc/6^ 
PC 250 in MiimteniSekwdeh) nachgemei§sep. In diesen Situationen sind die Cluster 
gleidi ^ofii die Regre^breh sind verteilt nach A^b,!), ebenso die Regressipnsparameter; 
Die Stqryarianz ist 01 fiiir alle Cluster.* Die Verfahren werdeh wie; bb^n beschrieben 
durchgefiihrt.; Das heiBt auch, daB fur die MI^ Verfahren alle, Clusterzahlen von; 1 bis 
6 durchgefechnet werdeh. Die Zeiten verstehen sich inklusive der Gerierierunf der Di^ 
. tensatze. 
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1:18. 
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MML 


0:28 


22:23 


0:28 


1:14 


FPML 


0:12 


0:51 


0:14 


1:06 



Der FPMLrAlgorithmus ist durchgehend am schnellsten, obwohl im Unterschied zum 
MMLrAlgorithmiis jev/eils mehrere Iterationsdurchgange durchgefiihrt wurden. Ljetzte- 
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rer kpnvergiert sehr laagsam und jeder Durchgang erfordert fur jeden Cluster die Be- 
rechnung einer gewichteten Regression mit dem kompletten Datensatz. Daher falit hier 
besonders die StichprobengroBe n ins Gewicht. Das Ergebnis fiir p = 9 fur die FPCA 
ist auf dieoben bereits diskutierte Explosion der Zahl der Iteratioaen zuruckzufuhren. 
Auch in der Situation mit p =■ 9 benotigt eine einzelne Iteration nur knapp 0.07 Se- 
kunden. Die Ergebnisse machcn sehr deutlich, warum eine; nennenswerte Erhphungder 
Iterationsanzahlen bei MML und FPCA nicht melir machbar gewesen ware. 

15.2 Die Erzeugung der Testdaten 

Es gelten; die Bezeichnungen aus Modell 4. In jeder Simulation werden die Datensatze 
nach einer bestimraten „Konstdlation" erzeugt, die durch folgende Charakteristika fest- 
gelegt ist: 

• Die Dimension p: 

• die Anzahl der Cluster s = \-y(I) \ mit 7(7) = {(ft.rfift),. - (& 3 .<^ 

• die Anzahlen der Punkte der einzelnen Cluster, im folgenden rnit n(l), . . . , n(s) der 
Grofie nach geordnet bezeichnet, wobei n(l) di£ GroBe des grSBten Clusters sei; 

• die Regressorenyerteilung Gj fiir jeden Cluster j = 1, 

• die Regressionsparameter $ fiir jeden Cluster j = 1, . . . , 5.; 

• die Storvariaiiz of fiir jeden Cluster j = 1, . , ..,$. 

Aufgrund der grofien Zahl interessariter Moglichkeiten verwende ich keineh kombinato- 
risch vollstahdigen Versuchsplan. Das Zielist, viele verschiedene Konstellatipnen so aus- 
zuprpbieren, dafi ein gufer Uberblick iiber die Einflusse der versehiedenen Charakteristika 
entsteht. Die tiimensicnen p = 1, 2, 4. 9 werden einigermafien gleichm&fiig yerwendet, die 
tiiedrigeren Dimensionen aber etwas haufiger wegen der hoheren Anschaulichkeit der sir 
mulierten Konstellatipnen. Um einen guten Eindruck yom Einflufi der StichprobengroBe 
zu bekommen, wird in fast alien Fallen mit n(l) = 20, 50, 100, 300 simuliert Es erscheint 
mir sinnvoll. n = |J| nur indirekt uber n(I) zu variieren, d.h. es wird in der hbmogenen 
Situation mit bis zu 300, in der Situation mit drei gleichgrofien Clustern aber mit bis 
zu 900 Punkten gerechnet- Da die Verfahren Parameterschatzer innerhalb der einzelnen 
Cluster berechnen* hangt die, Genauigkeit nicht von der GesamtstichprpbengroBe ab, 
sondern von der Grofie der Cluster. Entsprechend mehr Pimkte brauchte rr&xi auch in 
der Anwendurig, um gleiche Prazisipn zu erreichen, wenn mehrere Cluster vorlagen. 

Ich stelle nun die Datenkonstellatibnen vor. die simuliert werden. Die in Klammern 
angegebenen Worte im Schrifttyp, sans serif geben die Bezeichnungen fiir die spiter 
erlauterte Kurzschreibweise an. 

• Homogene Population (5 = 1): 

- Normalverteilte Regressoren (horn): G\ = jVjo,^), Px = (0,0), a\ = 1. Diese 
Koristellation wird simuliert fiir p = 1,2,4,9, n = n(l) = 20 falls p ^ 9 
sowie n = 50, 100, 300 in alien Fallen. Auf diese Situation lafit sich Satz 12.1 
anwenden. 



15 BESCHREIBUNG DER SIMULATIONEN 144 



• Weit ere Konstellationen mitfesten Parameterwerten: 

- Zwei Lokationsclust^r mit Abstand 5 (lok): $ = 2, p = 0, (3 X = 0, ft = 5, a\ = 
of = 1, n(l) = n(2) = 20, 50, 100, 300. Die Regressorenverteilung entfallt bei 
p = 0. Dieses ist die Situation* die in Beispiel 13.6 behandelt wird, allef dings 
mit fester Partition und einer kleineren Differenz zwischen den Clustermitteln, 
so dafi es bereits eine sichtbare Uberschrieidung? zwischen den Clustern gibt. 

~ Kreuzformige Konstellation (cross):: s> = 2, p == 2, G\ = Gi = A/(oj p jv 
^ = (l,0 r 0) ? ^2 = (-1,0, 0), (72=4 = 0.01, n(i) = n(2) = 20,50,100,300. 
Beispiel 13.14 behandelt eine kreuzformige Konstellation theoretisch, aller- 
dings unter Voraussetzung einer wihzigen, fur die Anwendung irrelevanten 
Storvarianz. Im Unterschied dazu ist hier die Storvarianz groBerund es kbmmt 
diirch p = 2 noch die zusatzliche Schwierigkeit hinzu, dafi die. Verfahren die 
Nullen bei fa-.&z, i = 1,2, mitsch&tzen mQsseri. 

- Parallele Konstellation (par): s = 2- p = 2, d =-<?i-= Af( 0 ,i p y, A = (0, 0,0), 
ft = (0, 0, 2), a\ = o% = 0.1, n(l) = n(2) = 20, 50, 100, 300.||ft~ft|| = 2 gilt 
hier also wie bei cross. Die Stprvarianzen sind grofier, so dafi die Ergebnisse 
nicht direkt vergleichbar sind. Mit of = of = 0.01 ware die Konstellation aber 
so klar gewesen, dafi alle Verfahren annahemd so gut gewesen waren wie die 
KQ-Schatzer fur die eihzelnen Cluster. Dadurch hatte man die Verfahren nicht 
mehr sinnyoll vergleichen konnen. Aufgrund der Aquivarianzeigenschaften der 
Verfahren gelten die hier erzielten Simulationsergebnisse auch, falls y fiir alle 
Datect mit \/cTl = 0.316 multipliztert worden ware, wqmit im Gesamtmodell 
c\ = <j\ = 0.01 und ft = {0, 0, 0-632) gegplten hatte (siehe Bemerkung 2,4). 

- Identifizierbarkeitsproblem , (id) : $ = 9, p .== 1, G\ = G 2 = Gz = A/(o,o.ooi)» 

<?4 = -(?5 = (?6- Mm.0O1): G 7 = G 8 = = %O.Q01), A = (0, 2), ft = (0, 1), 

ft = ft = (0.5,0), A = /? 7 = (1,1), Js = (1,0), A, = (-0.5, 2), 
or| = 0.001, n(j) ~ 20,50. j = 1, . . . , St. Diese Konstellation ist aus Beispiel 
5.5 abgeleitet. Dabei wird hier fiir jederi der neun Regressorenpunkte eiri Clu- 
ster definiert, wobei die Datenpunkte in der Simulation sowohl in x- als auch 
in y-Richtung eine Varianz vori 0.001 hatten. Versteht man unter einem Re- 
gressionscluster ein Modell mit gleichen Regressionsparametern und Storva- 
rianzen, so gibt es hier sechs Cluster: Drei davon haben je zwei verschiedene 
Regressorenyerteilungen 24 . Diese sechs Cluster teilen sich auf in die zweimal 
drei Cluster, deren Parameter in Beispiel 4.11 jeweils schon das komplette; Mo- 
dell beschreiben. Daher war zu erwarten, daS die ML-Verfahren haufig eine 
drei-Cluster-Losung angeben. In der Ejiskussion der Ergebnisse unierscheide 
icli zwischen neun „Modellclustern tt uiid sefchs n echten Clustern". 

Fiir die; Konstellationen lok^ cross und par ist die Zuordnungsunabhangigkeit (Be- 
merkung 2.2) erfiillt, fiir id zumindest approximativ (bis auf die Regressorenvarianz 
0.001). 

• Gleichartige Cluster mit zufailigen Regressionsparametern: 



24 Bei dieser Ausdrucksweise, wird sozusagen die Aquivalenzreiatioh „^ 5 " aus Beispiel 4.11 benutzt. 
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- Alle Regressorenyerteilungen gleich (rand): s = 2, 3, 4, Gj = A/j^ip) fur j = 
1, . ; . , 3. ]9jf wird fur jf = 1, . . fiir jeden Simulationslauf unabhangig zufallig 
aus Af(ojj^ x ) gewahltv Pur j = 1, • , 5 sind die a|, n(j) immer fur alle Cluster 
gleich, n(j) = 20, 50, 100,300 aufier fur p = 9» ddrt n(j) = 50, 150. Folgende 
Situationen fiir p, s, cr? werden simuliert: 
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In diesem Fall ist die fiir MML vorausgesetzte Zuordnungsunabhangigkeit 
erfullt. 

- Regressorenverteiliirigen unterschiedlich (randx): Wie Situation rand, aufier 
Qji =; JVj a/ j p ) fiir j; =, 1, , .>,s, wobei a/ fur jf = L« r . und fur jeden 
Simulationslauf unabhangig zufallig aus k r ^ tT n p ) gewahlt wird mit r 2 = 9, 
n(j) = 20,50, 100, 300 aufier fur $ = p = 4, dort n(j) = 2Q, 50,150. Folgende 
Situatibneh fiir pi s[ cr? werden simuliert: 
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- Regressqrenverteilungen extrem unterschiedlich (randlx): Wie Situation randx. 
nur mit r 2 = 100. $ = 2, p = 2 mit a? - 0.01, n(l) = 100 und p = 9 mit 
« 2 = 0.001, n(l) = 150: 

- Wechselpunkt-Situatibn (change): $ 2< p = 1, Regressoren fiir den ersten 
Cluster Equidistant und fest zwischen -1 und 0, Regressoren fiir den zweiten 
Cluster aquidistant und fest zwischen 0 und 1, a 2 = a\ = 0^01, Regressions- 
parameter wie in Situation rand, n(l) = n(2) = 20, 50, 100, 300. 

• Verschiedenartige Cluster: 

- Zweiter Cluster halb so grofi; (halb): Regressoren und Regressibnsparameter 
wie in Situation rand, s = 2,p = 4, n(l) = 50, 100, 300, n(2) = ^ of ; =s 
trf = 0.001. 

- Zvvei Cluster mit unterschiedlichen Storskalen (sc): Regreissoren und Regressi- 
onsparameter wie in Situation rand, s = 2.p = 2, n(l) = n(2) = 20, 50, 100. 300, 
u\ = 6.1, ^ = 0.001. 

- Zweiter Cluster mit halber Grofie. Storskalen und Regressoren sind unter- 
schiedlich (schalbx): Regressoren und Regressionsparameter wie in Situation 
randx, s ; =2,p = 9, n(l) = 50, 100, 300, n(2) = q\ = 0.01, q\ = 0.001. 

- Drei Cluster unterschiedlicher Grofie. StSrskalen und Regressoren sind un- 
terschiedlich (scvx): Regressoren und Regressionsparameter wie in Situati- 
on randx, s = 3,p = 1, n(l) = 20, 50,100,300, n(2) = n(3) = Sjtfy 
<j\ = 0.01, 4 = 0.001, 4 = 0.003. 
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• Ausreifierkonsteilatibnen: Im Rahmen dieser Simulationen modelliere ich Ausreifier 
ebenfells durch lineare Regressionsverteilungen , allerdings mit wesentlich weniger 
Punkten und sehr grofier Storvarianz. Mankann die er2eugten Daterisatze also als 
Datensatze mit & - 1 Clusterri plus Ausreifiern interpretieren, wobei die Konzen- 
tration auf der Erkeriiiurig der s - 1 „guten u Cluster iiegt. Man konnte sich auch 
fiir die Schatzung aller s Cluster interessieren, wobei der letzte wesentiich kleiner 
ist als die andereri; Das soil aber im Rahmen dieser Simulation nicht geschehen. 

- Ein grofier Cluster, stark yerstreute Ausreifier (out); $ = 2. p = 1,4, Qi 
und Ftegressioiisparameter wie in Situation rand, G 2 = Af(o,iooi p ), n(2) = 

o\ = 0.01, 4 = 100, n(l) - 20, 50, 100, 300. 

- Zwei grofie Cluster, stark yerstreute Ausreifier (randout): 5= 3, \ G\%G% uhd 
Regressionsparameter wie in Situation rand, G 3 = A^paooip)? ^(3) — 

cr| = 100, n(l) = «(2) ^ 20, 50,100:300, wobei zwei Situationen simuliert 
warden: p — 1 : o\ = o\ - 0,01 urid p = 4. erf = <r| = 0.001. 

- Zwei grofie Cluster mit unterschiedlichen Regressorenyerteilungen, Ausreifier 
mit grofierer Varianz (randoutx): s = 3, p = 2, af == o\ = 0.01, Gi } Gz } Gz 
urid Regressionsparameter wie; in Situation randx^ n(3) = a| = 9, n(l) = 
h(2)== 20,50,100,300. 

Insgesamt sirid das, 110 Konsteliationen, die jeweils for alle drei Verfahren simuliert 
werden. Die Anzahl der Durchlaufe pro Simulation war 1000. 25 

Im folgenden werden fur die konsteliationen Kurzbezeiclinungen nach folgender Np r 
menklatur (von links nach rechts) verwendet: 

• Die Dimension p (bei lrandll3 also p == 1), 

• der Mechanismus zur Erzeugung der Regressoren und Parameter (hei lrandl 13 also 
rand), 

• — log^ der Storvarianz (romische Zahl), des grofiten Clusters (bei Iran d 113 ist also: 
It entscheidend. die StSrvarianz ist 10^ 2 = 0.01) und 

• die Anzahl der Cluster (bei lrandII3 also 3). 

15.3 Die erhobenen Statistikeii 

Ausgegeben werden in jeder Simulation folgende Statistiken: 

• Die Haufigkeitsverteilung der Anzahlen gefundener (FPCA) bzw. gescMtzter Clu- 
ster sowie deren Mittelwert, 

• Die. : Anzahl der Simulationslaufe; in denen jeder modellseitig vorhandene Cluster 
mindestens einmal „korrekt gefunden" wird nach jedemder drei im folgenden er- 
klarten Kriterien. Ein modellseitig vorhandener Cluster j, j = ist cha- 
rakterisiert durch seinen Regressionsparameter /3 ;r seinen Skalenparameter a 2 , die 

25 Einige der ersten Simulatjonen batten 5000 Durchlaufe. Da liberal! relative Haufigkeiten tabelliert 
sind, ist das aber fiir die Vergleichbarkeit der W'erte unproblematisch. 
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Indexmenge 

* {% € {1, . . . ,n} : 7(f) = 

der Punkte; die, nach diesen Parametera erzeugt warden (X^ bezeichne die Ma- 
trix der entsprechenden Regressorenpuakte) sowie die Regressorenverteilung Gy 
Die Schatzung; von Gj ist aber nicht von Interesse, sie wird nicht zur Definition 
der Kriterien hierangeiogen. f} } a\M seien die Schatzurigen der entsprechenden 
Parameter durch die Verfahren, Dabei ist fur die ML-V^rfahren 

M k ~ {i e {1, , .,,n} :, ffi- k], k = 1,., . . J 

uiid fur die FPCA M(g) :■'== {% 6 {l, . .., ^} gi = 1}.. Dafi ein modellseitig vor- 
handener Cluster , ,korrekt gefunden^ wird, bedeutet , dafi .das betreffende Verfahren 
einen Cluster kervorgebracht hat, der eines oder mehrere der folgenden Kriterien 
erfiillt: 

/3-kriterium: Ein geschat2ter Cluster erfiiilt das ^-Kriterium bzgl. (# v <r 2 , M) % 
falls ~ 

wobei Xp^i die Yerteilungsfunktibn der x 2 -Verteilung mit p + 1 Freiheitsgra- 
den bezeichnet. Dieses Kriteriurri erfiillt der KQ-Schatser, angewendet auf 
die Daten aus M, mit Wahrsehei Beispiel Fahrmeir 

und Haiherle (1984), S. 89). Das heifit, dafi 95% der zu erwartende opti- 
mal mogliche Anteii von „korrekt gefundenen" Clustern ist, denn die Pa- 
rameterschatzung innerhalb der kompliziertereri Clustermodelle ist natiirlich 
schwieriger, als wenn eine Sch&tzung nur aufgrund der „richtigen Daten" vor- 
genommen wird. 

§ - (T^Kriterium: Ein geschatzter Cluster erfiillt das (3. - ff 2 -Kriterium bzgl. 
f$*o?iM)\ falls er das ,8-Kriterium erfiijlt und 

^|-p-x(Q-025) < m ~l~ ^ < XU- P - X (W5). 

Dieses Kriterium erfiiilt der KQ-Sch&tzer zusaramen mit dem optimal erwar- 
tungstreuen Skalerischatzer, angewendet auf die Daten aus M. riiit Wahr- 
scheinlichkeit 0.95 2 = 0.9025 (siehe zum Beispiel Fahrmeir und Hamerle 
(1984J, S; 89), 

Zuordnungskriterium: Ein geschatzter Cluster erfiillt das Zuordnungskriterium 
bzgl. 0,0*\M) } falls jM \ M\< |, und |M \ Af | < 0 (jeweils abgerundet). 

Jeder vom Verfahren gefundene Cluster wird mit jedem modellseitig vorhandenen 
Cluster verglichen. Zu beachten ist, dafi alle; Kriterien an n angepafit sind. Eine 
Verbesserung der Ergebnisse gemesseh in diesen Kriterien ist daher mit Vergrofie- 
rung von n nicht unbedingt zu erwarten. Im Falle des /?- und /3 <x 2 -Kriteriums 
ist riur zu erwarten, dafi die Werte mit steigenderii n nicht fallen, wenn die„Konver- 
genzgeschwindigkeit" der Parameterschatzer dieselbe ist wie bei der KQ-SchStzung 
mit optimaler Varianzschatzung, Verbessern konneh sich die Ergebnisse nur darin, 
wenn die allgemeine Konstellation bei steigendem n besser erkannt wird. 
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16 SimulatiGnsergebnisse 

Die, Diskussion der Ergebnisse ist nach den in Abschnitt 15.2 eingefuhrten Konstellatio- 
nen geordriet 

16.1 Homogene Populationen 

Im Falle homogener Populationen interessiert bei den ML-Verfahreii nur, wie haufig die 
korrekte Clusterzahl 1 geschatzt wird. In diesem Fall ist die Schatzung der Parameter 
die iibliche optimale Schatzung. Anderenfalb wird die Konstellation der Daten falsch 
eingeschatzt, wobei ich es unerheblich finde, ob nun 3 oder 6 Cluster geschatzt werden. 
Die Beurteilung der FPCA ist etwas komplizierter. weil audi danri ein Cluster vorhanden 
sein kann, der dem Gesamtdatensatz entspriclit, wenn raehr als ein FPC gefunden wird. 
Die folgenden Tabelleii enthalten die relativeri Haufigkeiten iiber alle Simulationslaufe 
dafiir, dafi die Clusterzahl 1 geschatzt wurde. Zusatzlich wird die relative Haufigkeit 
dafiir angegeben, dafi die modellseitigeft Parameter nacli dem 0 — cr 2 -Kritieriiim gefun- 
den werden. Die Ergebnisse nach dem /?~Kriterium sind in Bezug auf den Vergleich der 
Verfahren praktisch identisch zu denen des 0 — o* 2 -Kriteriums. Das Zuordnungskriteri- 
um ist erfiillt r wenn es einen Cluster gibt, der ungefahr deri ganzeh Datensatz erithalt. 
Das ist bei der FPCA immer der Fall und bei den ML- Verfahren genau dann. wenn die 
korrekte Clusterzahl 1 geschatzt wird. 



horn | FPCA: 1 Cluster gefunden 


FPCA: 0 - o^-Kriterium 


p= - li 


2 


4 


9 


1 


2 


4 


9 


n = 20 1 


0.326 


0.131 


0.090 




0.911 


0.912 


0.907 




n = 50 


0.563 


0.283 


0.006 


0 


0.899 


0.907 


0.899 


0.898 


n = 100 : 


0.T88 


0.634 


0.186 


0 


0.892 


0.896 


.0.896 


0.888 


n = 300 


0.875 


0.843 


0-686 


0.110 


0.894 


0.884 


0.893 


0.891 




hom 


MML: 1 Cluster gefunden 


MML: 0 - o 2 -Kriterium 


P = 


1 


2 


4 


9 


1 


2 


4 


9 


n - 20 


0.600 


0.190 


0.042 




0.581 


0.200 


0.051 




n = 50 


0.930 


0.664 


0.312 


0.029 


0.867 


0.627 


0.285 


0.029 


n = 100 


0.977 


0.953 


0.919 


0.610 


0-892 


0,877 


0.841 


0.544 


n = 300 


0.981 


0.931 


0.970 


0.920 


0.905 


0.902 


0.902 


0.833 



hom 


FPML: 1 Cluster gefunden 


. FPML: 0 - cr 2 -Kriterium 


P = 


1 


2 


4 


» 1 


1 


2 


4 


9 


n = 20 


0.947 


0.904 


0.705 




0.856 


0.820 


0.643 




n = 50 


1 


0.999 


1 


0.969 


0.902 


0.897 


0.899 


0.854 


n = 100 


1 


1 


1 


1 


0.904 


0.906 


0.905 


0.901 


n = 300 


1 


1 


1 


1 


0.904 


0.899 


0.902 


0.896 



Die Ergebnisse fur die FPCA belegen die Relevanz von Satz 12 J fur Datensatze: Es 
existiert offenbar ffir beliebiges, n, p fast immer ein FPC, dessen Parameterschatzung 
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ann&hernd so gut ist wie der KQ-Schatzei xsxit optimaler Varianzschatzurigl Mit steigen- 
dem n wird immer hadiger nur ein Cluster gefunden, was asymptqtische Eindeutigkeit 
vermutea lafit. Die MML-Schatzung iiberschatzt fur kleines n haufig die Glusterzahl, 
scheint aber auch asymptotisch akzeptabel zu sem. Die FPMjt Schatzung funktioniert 
in dieser Konstellation ausgezeichnet. 

Wie sich in den folgenden Abschnitten herausstellen wird, findet die FPCA ih den 
meisten anderen Konstellationen deutlich raehr Cluster. Man kann die Anzahl der gefun- 
denen Fbtpunktcluster als Teststatistik fur die Homogenitatshypothese venvenden. Aus 
diesem Grurid folgt nun ndch eine Tabelle fur die durchschnittliche Clusterzahl und die 
0.95- bzw. 0.99-Quantile der empirischen Verteilung der gefundenen Ciusterzahlen. Die 
aus der Tabelle ersichtliche Tenclenz, dafi bei hqhem p und kleineni n haufig sehr viele 
Cluster gefunden werden, wird sich in den weiteren Ergebnissen fortsetzeh. 



FPCA. 


Clusteranzahl 


hom 


durchsclmittlich 


0;95-Quantil 


0.99-Quantil 


P~ 


1 


2 


4 


9 


1 


2 


4 


9 


1 


2 


4 


9 


n = 20 


2.26 


3.37 


4.12 




5 


7 


8 




6 


9 


11 




n = 50 


1.59 


2.32 


6.51 


44.70 


3 


5 


11 


63 


4 


6 


13 


67 


n = 100 


1.25 


1.48 


2.66 


13.86 


2 


3 


5 


20 


3 


4 


6 


23 


n = 300 


1.14 


1,18 


1.39 


3.06 


2 


2 


3 


,6 


3 


3 


4 


7 



16.2 Konstellatipnen mit festen Parameterwerten 

Fur die Kohstellationeri cross, par und lok ist s = 2, und beide Cluster sind aufgrund 
der symmetrischen Kcnstellatioh gieich zu behandeln. Daher wurden in den Tabellen 
dariiber, wie haufig die Cluster gefunden werden, die Werte fur beide Cluster zusam- 
mehgenommen. Tabelhert ist wieder die relative Haufigkeit iiber aUe Simulationslaufe; 
Bei der Schatzung der Zahl der Cluster ist die relative; H&ufigkeit fur .die Schatzung der 
Icorrekteii Clusterzahl 2 fiir die ML-Verfaiifen tabeliiert. Da es immer eineri FPC gibt, 
der fast dem kpmpletten Datensatz entspridit (siehe die Diskussion in Abscinitt 10), 
wird damit die relative Haufigkeit von drei gefundenen Clustern der FPCA verglichen. 

Auch in den folgenden Abschnitten wird die, kprrekte Clusterzahl+1 als „korrekte 
Clusterzahl" fur die FPCA gewertet. 

Au8er<iera ist die mittlere geschatzte bzwi gefundene Clusterzahl tabeliiert. 



cross 


Clusteranzahl 




durchschnit' 


tlich 


korrekt (2 bzw: 3) 


Verfahren 


FPCA 


MML 


FPML 


FPCA 


MML 


FPML 


n(l) = 20 


13-30 


2.13 


2 


0 


0878 


1 


n(l) = 50 


13.26 


2.02 


2 


0.001 


0.985 


1 


n(l) = 100 


12.41 


2 


2 


0.002 


0.996 


1 


n(l) = 300 


10.10 


2 


2 


0.058 


0.997 


1 
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cross 


Cluster korrekt gefunden 


Kriterium 




1 P~° 2 


Zuordnung 


Verfahren 


FPCA 


MML 


FPML 


\ FPCA 


MML FPML 


FPCA 


MML 


FPML 


n(l) = 20 


0.896 


0.900 


0.928 


1 0.704 


0.800 i 0,862 


0.511 


0.676 


0.934 


n(l) = 50 


0,870 


0.939 


0.936 


0.510 


0.874 0.864 


0.314 


0843 


0.987 


n(l) = 100 


0.848 


0.936 


0.936 


0.318 


0.871 0.864 


0.170 


0.890 


0.999 


n(,l) = 300 


0.808 


0.938 


Q.935 


1 0.142 


0.875 | 0.837 


0.027 


0.872 


1 



par 


Clusteranzahl 




durchschnittlich 


korrekt (2 bzw. 3) 


Verfahren 


FPCA 


MML 


FPML 


FPCA 


MML 


FPML 


n(l) = 20 


5.51 


2.86 


1.99 


0.093 


0.471 


0.992 


n(l) - 50 


4,10 


2.36 


1.98 


0.328. 


0.701 


0.980 


n(l) = 100 


3.69 


2.26 


1.99 


0.515 


0.773 


0.994 


n(l) = 300 


3;42 


2.19 


2 


0.655 


0.827 


0.998 



par 


Cluster korrekt gefunden 


Kriterium 


P 


p-o* 


Zuordnung 


Verfahren, 


FPCA 


MML 


FPML 


FPCA 


MML 


FPML 


FPCA 


MML 


FPML 


n(l) = 20. 


0.884 


0.790 


0.929 


0.836 


0.583 


0.871 


0.938 


0.574 


0.990 


n{l) = 50 


0.923 


0.906 


0.921 


0.866 


0.797 


0.873 


0.982 


0.839 


0.981 


n(l) = 100 


0.936 


Q.922 


0.939 


0,870 


0.837 


0.887 


0.994 


0.905 


0.994 


n(l) =300 


0.938 


0.929 


0.947 


0.866 


0.866 


0.890 


0.997 


0.946 


0.999 



lok 


Clusteranzahl 




durchschnittlich 


korrekt (2 bzw, 3) 


Verfahren 


FPCA 


MML 


FPML 


FPCA 


MML 


FPML 


h(l) = 20 


2.97 


2,24 


1.99 


0.264 


0.749 


0.993 


n(l) = 50, 


2.23 


2.36 


2 


0.177 


0.673 


1 


n(l) = 100 


1.71 


2.50: 


2 


0,112 


0.568 


1 


n(l) = 300 


111 


2.87 


2 


0,016 


0.356 


1 



lok 


Cluster korrekt gefunden 


Kriterium 


P 


P-cr* 


Zuordnung 


Verfahren 


FPCA 


MML 


FPML 


FPCA 


MML 


FPML 


FPCA 


MML 


FPML 


n(l) = 20 


0.629 


0.872 


0.927 


0.578 


0.757 


0.860 


0.631 


0.819 


0.982 


n(l) = 50 


0,416 


0.878, 


0.935 


0.393 


0.762 


0.867 


0.436 


0.840 


0.999 


n(l) = 100 


0.252 


0.851 


0.942 


0.234 


0.728 


0.875 


0.266 


0.802 


1 


n(l) = 300 


0.041 


0.763 


0.937 


0.037 


0.639 


0.863 


0.044 


0.715 


1 



Zwischen den Konstellationen cross und par ist trotz p = 2 und s = 2 in beiden Situa- 
tionen eih deutlicher Unterschied zu sehen. 

In cross iiberschneiden sich die Cluster, so dafl insbesondere die FPCA viel grofie- 
re Schwierigkeiten hat, sie zu trennen. Bei der Zuordnung und der Schatzung von a 2 
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1st das Verfahren unbratichbar, einzig die Schatzung von 0 ist zufriedenstellend- Dieses 
Ergebnis steht insofern in Einklang rait Beispiel 13.14, als daB dort die Schranken fur 
o?(g\P) auch sehr grofiztigig sind. Dort wird nur die Existenz von FPC gezeigt, de- 
ren 0 nahe dem Modellparameter liegt. Solche FPC werden auch hier gefunden. In der 
Praxis miissen diese Cluster leider in einer Ausgabe von durchschnittlich mehr als zehn 
Fixpunktclustern gefunden werden. Dabei ist allerdings 2u beachten : daB die FPC exfah- 
rungsgemaC meistens Obermengen der Modellcluster sind, so dafi man durch sorgfaltige 
Analyse der Ausgabe durcHaus die richtige Konstellation erkennen kann (siehe auch die 
Analyse des artifizielien Datensatzes in Abschnitt 10). MML und FPML liefern fiir cross 
gute Resultate. 

In Situation par dagegen findet die FPC A die Cluster uberraschendervyeise sogar 
bzgi. der Paranieterschatzung besser als MML. MML hat im Gegensatz zu cross hier die 
Tendenz, die Clusterzahl zu iiberschatzen und hinterlaBt bei kleinem n einen schlechten 
Eindruck. 

In Situation Ipk schlieBlich ist offenbar der Abstand zwischen beideir Clustern so 
klein, dafi das Ergebnis aus Beispiel 13.6 nicht mehr iibertragbar ist. Mit wachsendem 
n tauchen so viele Punkte in der Uberschneidung der Cluster atif , daB beide immer 
haufiger in einen FPC zusammenfallen, so daB die FPC A nur noch einen Cluster findet. 
MML uberschatzt dagegen mit wachsendem n die Clusterzahl erstanniicherweise immer 
starker, 

FPML arbeitet in alien diesen Konstellationen ausgezeichnet und ist durchweg besser 
als beide anderen Verfahren. 

Die Konstellation id ist etwas anders geartet als die anderen Situationen. Die korrekte 
Losung fiir die Clusterzahl ware eigentlich 6, aufgrund des Identifizierbarkeitsproblems 
kann der Gesamtdatensatz aber mit nur 3 Clustern nahezu perfekt angepaBt werden. Bei 
der Clusterzahl wird also die relative Haufigkeit fiir 3 (bzw. 4 bei FPCA) und 6 (bzw. 
7 bei FPCA) neben der durehschnittlichen Anzahl gefundener Cluster ausgegeben. Die 
Cluster sind nicht symmetrisch. Das Simulationsprogramm gibt die Fiiidungshaufigkei- 
ten der Modellcluster aus, nicht die der eigentlich interessanten echten Cluster? 6 . Ich 
bescbranke mich hier auf das 0— Kri terium. Die Findungshaufigkeiten der Modellcluster 
mit den Indizes 1,2.9 („einfache Cluster") sind zusammengefafit, ebenso diejenigen der 
Modellcluster mit den Indizes: 3,4,6, dereh Regressionsparameter mit doppelt so vieieri 
Punkten vertreten sind (,,doppelte Cluster"): Modellcluster 5,7,8 werden mit denselben 
Regressionsparameterh erzeugt. 

Nach derd Zubrdnungskriterium finden die Verfahren praktisch keineri Modellcluster. 
Die Ergebnisse des $ - <x 2 ~Kriteriums Hegen fiir alle Verfahren ahnlich; zumindest die 
eihfachen Cluster werden kaurii gefunden. Das ist keine Uberraschung, da die Cluster so 
definiert sind, daB jeder der neun Modellcluster von den Regressionsparametem je zweier 
unterschiedlicher echter Cluster gut angepafit wird. Daher ist hier nur die Schatzung der 
Regressionsparameter der echten Cluster yon Interesse. 

26 Zur Untescheidung in n Modell- tt uad „echte Cluster'- siehe die Besdirei bung der Konstellation id 
aufSeitel44. 
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id 


Clusteranzahl 




durchscHnittlich 


3 bzw. 4 


i 6 bzw. 7 


Verfahren 


FPCA 


MML 


FPML 


FPGA 


MML 


FPML 


| FPCA 


MML 


FPML 


n(l) = 20 


12,07 


4.59 


3.03 


0 


0.024 


0,966 


1 0.005 


0.130 


0 


n(l) = 50 


11.56 


4.75 


3.06 


0 


0.064 


0.933 


1 0.007 


0.241 


0: 



id 


/?-Kriterium 


> . . . ... : 


einfache Ch 


ister 


dop] 


>elte Cluster 


Verfahren 


FPCA 


MML 


FPML 


FPCA 


MML 


FPML 


n(l) = 20 


0,967 


0.623 


0.745 


0.952 


0.743 


0.514 


n(l) = 50 


0.928 


0.489 


0.541 


0.946 


0.592 


0.662 



Die Unterteiiuhg in einfache lind doppelte Cluster jseigt nicht viel; eine genaue Analyse 
der Findungshaufigkeiten aller 9 Modellcliister hatte einiges fiber die Bedeutung der La- 
ge der £unkte in dieser Konstellation; aussagen konnen, aber darum geht es hier nicht, 
^Alles ^^Iwdie; iiber den Vergleich der Verfahren ist schorl hier zu sehen. Die FPCA 
ist den anderen Verfahren diirch den Veraicht auf Zwangspartitm und; 
kaiiri daher klle Cluster trotz der Ubersclineidungeri finden; Bei der Clusteranzahl schatzt 
FPMt jabiMerwdsf Cluster, M1WIL uberr^chenderweise Mufiger vier oder fiinf als; 
drei bder sechs. Die FfcGA findet etwas mehr als die sechs echten Cluster. 

16*3 Gieichartige Cluster mit zufllligen Regressionsparametern 

In dtesem Abschnit t sind wieder alle Cluster symmefrisch, daher werdendie Findungshaufig- 
keiten aller Cluster zusaininengerechnet 

16;&1 Alle Regressq^ g^i^b 

Zuerst werden die Konstellationen rand behandelt, in denen alle Regressprenyerteiiungen 
gleich sind; Di^Tabell^ nait den Situatibnen mit 5 = :2:c: 



rand 


Clusteranzahl 




durchschnittlich 


korrekt (2 bzw. 3) 


Verfahren 


FPCA MML FPML 


FPCA 


MML 


FPML 


lrandll2 


p=l. : a\ =0.01 


n(l) = 20 


7.42 


2.02 


1.97 


0.075 


0.941 


0.972 


n(l) = 50 


6.51 


2 


1.97 


0.133 


0.977 


0.974 


n(l) = 100 


5.67 


2 


1.98 


0.171 


0.985 


0.975 


n(l) = 300; 


4.55 


2.01 


1,98 


0.205 


0.982 


0.981 


4rahdlll2 


p = 4, a\ =0.001 


n(l) = 20 


24.82 


2.08 


2 


0 


0.924 


1 


n(l) = 50 


17.02 


2 


2 


0.003 


1 


1 


n(l) = 100 


12.09, 


2 


2 


0,009 


1 


1 


h(l) = 300 


7.49 


2 


2 


0.058 


1 


1 
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rand 


Cluster korrekt gefunden 


Kriterium 






Zuordnung 


Verfahren 


FPCA MML 


FPML 


FPCA MML FPML 


FPCA 


MML FPML 


lrandll2 


p = l. a* = 0.01 


n(l)=20 


0.810 


0.910 


0.902 


0.667 


0.833 


0,835 


0.577 


0.731 


0.868 


n(l).=50 


0.730 


0.926 


0.907 


0.530 


0.864 


0.836 


0.495 


0.759 


0.894 


n(l) = 100 


0.663 


0.926. 


0.912 


0.416 


0.865 


0.833; 


0.452 


0.774 


0.912 


n(l) = 300 


0.594 


0.924 


0.910 


0.286 


0.869 


01790 


0.439 


0.732 


0.927 


4randlll2 


p = 4, a'i = 0.0 


01 


n(l) = 20 


0.912 


0.941 


0,937 


0,815 


0.940 


0.881 


0.960 


0.941 


0.998 


n(l) = 50 


0.934 


0.947 


0.948 


0.829 


0.938 


0.895 


0.988 


0.987 


1 


n(l) = 100 


Q931 


0.954 


0.954 


0.808 


0.945 


0,907 


0.995 


0.997 


1 


n(l) = 300 


0.932 


0.947 


0.939 


0.752 


0.932 


0.885 


0.995 


1 


1 



Es folgen die Resultate mit dret Clusterii: 



rand 


Clusteranzahl 




durdischnittlicl 


korrekt (3 bzw. 4) 


Verfahren 


FPCA MML FPML 


FPGA MML ! FPML 


lrandl3 


p = L cf = 0 .1 


n(l) = 20 


2.76 


2.55 


4.12 


0.172 


0,441 0.179 


n(l) = 50 


2.20 


2.67 


4.81 


0,201 


0.612 0.025 


n(l) =. 100 


2.04 


2.77 


5.05 


0.081 


0.696 ; 0 012 


n(l) = 300 


1.85 


2.90 


5.33 


0.036 


0.808 0 


4randlll3 


p = 4, e{ = 0.001 


n(l) = 20 


12.19 


3.32 


2.96 


0.008 


0.747 


0.960 


n(l) = 50 


8.16 


.3.02 


3 


0.074 


0.980 


1 


n(l) = 100 


6.80 


3.02 


3 


0145 


0.981 


1 


n(l) = 300 


5.61 


3.01 


3 


0.236 


0.989 


1 


9randlll3 


p = 9, c \ = 0.0 


01 


n(l) = 50 


9.42 


3.16 


2.97 


0.036 


0.850 


0.954 


n(l) = 150 


3.69 


3,01 


3 


0.164 


0.993 


1 
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rand 


Cluster korrekt gefunden 


Kriterium 


fi 




Zuordnung 


Verfahren 


FPCA MML FPML 


FPCA MML FPML 


FPCA 


MML 


FPML 


lrandl3 


p = 1. a\ = 0.1 


n(l) = 20 


0.155 


0.576 


0.530 


0.078 


0.457 


0.279 


0.032 


0131 


0.148 


n(l) = 50 


0.054 


0.657 


0.340 


0023 


0.549 


0.172 


0.018 


0.121 


0.080 


n(l) = 100 


0.028 


0.684 


0.250 


0.013 


0.580 


0.134 


0.015 


0.129 


0.072 


n(l) = 300 


o.on 


0,728 


0.159 


0.006 


0.615 


0.087 


0.010 


0.115 


0.043 


4randlli3 


p = 4, .ff? -..0.001. 


n(l) = 20 


0.216 


0.924 


0.884 


0.145' 


0.922 


0.830 


0.264 


0890 


0.953 


n(l) =50 


0.465 


0.940 


0.940 


0.319 


0.934 


0.885 


0.505 


0.979 


1 


n(l) = 100 


0.619 


0.945 


0.940 


0.407 


0.934 


0.881 


0,690 


0.995 


1 


n(l) = 300 


0.741 


0.936 


0.939 


0.360 


0.918 


0.886 


0;822 


0.996 


1 


9randlll3 


p = 9, CT jf = 0.001 


n(l) = 50 


0.017 


0.942 


0.897 


0.011 


0.939 


0;848: 


0.022 


0.959 


0.966 


'n(l) =150. 


0091 


0.938 


0,935 


0.058 


0.933 


0.875 


0.101 


0.999 


1 



Nun noch die Ergebnisse mit vier Glustem: 



rand 


Cliisteranzahl 






durchschnittlich 


korrekt (4 bzw. 5) 


Verfahren 


FPCA MML FPML 


FPCA MML FPML 


IrandllW 


p = l, el = 0.0 


01 


n(l) = 20 


6.69 


4.18 


3.83 


0.143 


0:750 


0.838 


n(l) = 50 


5,87 


4.16 


3.83 


0.186 


0.793 


0.832 


n(l) = 100 


5.40 


4.15 


3.85 


0.193 


0.815 


0.849 


n(l) = 300 


4.82 


4,13 


3.88 


0.204 


0.836 


0.883 






rand 


Cluster korrekt gefunden 


Kriterium 






Zuordnung 


Verfahren 


FPCA MML | FPML 


FPCA MML FPML 


FPCA MML | FPML 


IrandllW 


p = l, ff f= 0.001 


n(l) = 20 


0;439 


0.903 


0.854 


0.282 


0.892 


0.794 


0.369 


0.865 


0.908 


n(l) = 50 


0.460 


0.916 


0.857 


0.263 


0.898 


0.794 


0.417 


0;894 


0.912 


n(l) = 100 


0.468 


0.916 


0.866 


0.223 


0.896 


0.799 


0.441 


0.904 


0.923 


n(l) = 300 


0.451 


0,918 


0,881 


0.132 


0.895 


0.785 


0.460 


0.915 


0,940 



In dieser Situation ist das. MML- Verfahren ira Vorteil, denn gegeben den Regressor x 
sind, wie ira Mischmodell 1 gefordert, die Mischungsproportionen immer gleich. d.h. die 
Zuordnungsunabhangigkeit ist erfullt. Diese Situation wird fur das MML- Verfahren vor- 
ausgesetzt. Entsprechend erzielt MML von alien Verfahren die besten Ergebnisse bei 
den Parameterschatzungskriterieii 0 und 0 — a 7 . Ihteressant ist auch, dafl die Verlu- 
ste gegeniiber der KQ-Schatzung mit optimaler Skalenschatzung sehr klein sind. In den 
Situationeh mit sehr kleiner Storvarianz (0:001) eVreicht MML sogar haufig bessere Wer- 
te als die theoretisch 2U erwartende 0.9025. Das liegt daran, dafi innerhalb der MML- 
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Berechnung der Mindestwert fur a 2 auf 0.001 festgelegt ist, so dafi in diesen Situationen 
das 0 — c^-Kriterium nicht .durch Unterschatzung der Storyarianz verletzt werden kann; 
Es handelt sich also urn ein Artefakt der Simulation. Auch im folgenden ist bei alien 
Konstellationen mit a] = 0 001 fur einen Cluster zu beachten, dafi die Ergebnisse von 
MML bzgl des /3- und insbesondere des /J — . d* 2 -Kriteriums besser sind, als sie bei Wahl 
einer anderen MML-Vjarianzuntergrenze vvaren. Die Schatzung der Clusterzahl durch das 
BIC ist in alien Fallen gut. 

Die explizite Schatziirig der Partition des Datensatzes im Fixed Partition Model 
(Model! 2) auBert sieh darin, ,dafi ; FPML audi in diesem Abschnitt trotz optimaler Be- 
dihjgungen fiir MML nach dem Zuordriurigskriterium meistens besser abschneidet. Die 
Parameterschatzungen sind zufriedenstellend. die SchStzung der Clusterzahl ausgezeich- 
det. Eirie Ausnalime davon bildet die Situation lrand 13 (siehe Abbiidung i0). In dieser 
Konstellation bricht das Verfahren zusammen. OfFenbar benStigt FPML ahnlich wie die 
FPCA gut voneinaiider getrennte Cluster. Etwas iiberraschend ist jedoch. dafi FPML 
hief dazu neigt, die Clusterzahl zu uberschatzen. im Gegensatz zu den nieisten anderen 
Konstellationen und, zur J?PCA. Der grofite Vorteil von MML schemt di? Uberiegenheit 
in deir Konstellation lrandl3 zu sein: In Datehsatzen, deren Struktur stark vbni Storterm 
iiberlagert wird, kann mir ein Verfahren bestehen, fiir das die Struktur weitgehend vor- 
ausgesetzt wird. Die; Zuordnurigsschatzung. allgeineiii die Schwache von MML, ist in 
dieser Situation ohneEin nicht, gut moglich. Das kann man ail den Ergebnissen aller 
Verfaliren beim Zuordnungskriterium sehen. 

Das Abschneiden der FPCA in den rand-Konstellationeri ist allgemeiri schlecht: In 
einigen Konstenationen (lrand 13, ?rand 1 112) werden kaum korrekte Cluster gefunden. Bei 
lrandll2 verschlechtefn sich die Ergebnisse mit steigendem n. In alien Konstellationen 
aufier 4randl 112 sind die Findungshaufigkeiten deutlich niedriger als die der anderen Ver- 
fahren, insb^sbhdere nach dem /3 t- a 2 ~Kriterium. Die Schatzung von a 2 ist offenbar 
immer stark yerzgrrt; 

D^ Verhalten der FPCA karin zwei Griinde haben: Bei lrand 13 und eyehtuell lrand 1 12 
sind die Cluster nicht gut genug getrenrit; die FPCA fafit Punkte aus unterschiedlichen 
Modellclustern zusammen. In den Fallen mit p = 9 oder s ; =: 4 reicht vermutlich die 
Iteratipiisz^hl nicht aus, urn die relevanten FPCV zu fihden. 

16.3.2 Unterschiedliche Regressorenyerteilungen 

In der Situation rand !x liegen die Regressoren fiir die yerschiedenen Cluster mit einer 
Wahrscheinlichkeit von nahezu 1 in jeder Dimension so weit auseinander, dafi das bei 
einer optischen Vofabahalyse des Datensatzes sofort auffiele. Es scheint mir nicht be- 
sonders realistisch zu seiri, einen solchen Datensatz zu analysieren, ohhe daB vorher die 
oifensichtlich verschiedenartigen Daten auseinandersortiert werden. Diese Konstellation 
wird nuf siinuliert, urn zu sehen, wie 'sich unterschiedliche Regressoren' im Extremfall 
auswirken. Daher beschranke ich mich auf jeweils einen Wert von n. Die Tabellierung 
beginnt wieder mit $ = 2: 
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Clusteranzahl 




durchschnittlich 


korrekt (2 bzw. 3) 


Verfahren 


FPCA MML FPML 


FPGA 


MML | FPML 


change 


p = 1, = 0.01 


n(l) = 20 


4.21 


2.13 


1.78 


0.248: 


0.320 


0.702 


n(l) = 50 


3.08 


2.03 


1.81 


0.328 


0.437 


0.661 


n(l) = 100 


2.68 


2.18 


1.82 


0.325 


0.524 


0.676 


n(l) = 300 


2.44 


2.72 


1.84 


0.326 


0.375 


0^698 


randx 




2randxll2 


p = 2, a\ = 0.01 


n(l) = 20 


13.02 


2.48 


1.99 


0.013 


0.653 


0-858 


n(l) = 50 


10.54 


2.18 


2 


0.055 


0.818 


0.894 


n(l) = 100 


8.87 


2.16 


2 


0.108: 


0.857 


0.921 


n(l) = 300 


6.88 


2.15 


2 


0.166 


0.879 


0,968 


4randxlll2 


p = 4; c\ = 0.0 


01 


n(l) = 20 


29.61 


317 


1.97 


0.002 


0.502 1 0.855 


n(l) = 50 


22.55 


2.19 


2.03 


0.033 


0.846 0.896 


n(l) = 100 


16,81 


2.08 


2.01 


0.042 


0.920 s 0.962 


n(l) = 300 


9.49 


2.06 


1.99 


0.098 


0.961 | 0.989 


randlx 




2rand!xll2 


p = 2, <fi = 0.01 


n(l) = 100 


9.47 2.52 2.12 | 01202 0.504 0,606 


9rand!xlll2 


p = 9, a'i = 0.001 


n(l) = 150 


29.02 | 2.32 | 2.08 | 0.046 0.783 0.813 
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Cluster korrekt gefunden 



Kriterium 




J-c* 


Zuordnung 


Verfahren 


FPCA MML FPML 


FPGA MML FPML 


FPCA 


MML 


FPML 


change 


p= 1, <r? = 001 


n(l) = 20 


0.750 


0.436 


0.655 


0.657 


0.316 


0.580 


0.617 


0.143 


0.523 


n(l) = 50 


0.617 


0.350 


0.628 


0.549 


0.272 


0.562 


0.577 


0.136 


0.506 


n(l) = 100 


0.556 


0.313 


0.631 


0.502 


0.251 


0.55S 


0.555 


0.132 


0.539 


n(l) = 300 


0.538 


0.227 


0.596 


0.501 


0.164 


0.510 


0.562 


0.112 


0-568 


ra ndx 




2randxll2 


p = 2, c\ = 0.01 


n(l) = 20 


0.921 


0.711 


0.803 


0.845 


0.604 


0.736 


0.868 


0.537 


0.804 


n(lV = 50 


0.867 


0.820 


0.843 


0.765 


0.744 


0.779 


0.811 


0.714 


0.866 


h(l) = 100 


0.825 


0856 


0.871 


0.688 


0;790 


0.806 


0.784 


0.776 


0.906 


n(l) = 300 


0.737 


0.874 


0.900 


0.572 


0.805 


0.822 


0.754 


0.815 


0.946 


4rantfx!H2 


p = 4, <rf = 0.0 


01 


n(i) = 20 


0.892 


0.620 


0.775 


0.841 


0.618 ! 0.728 


0.978 


0.551 


0.836 


n(l) = 50 


0.932 


0.849 


0.869 


0.882 


0;844 0.821 


0.999 


0.865 


0,910 


n(l) = 100 


0,932 


0.902 


0.914 


.0.874 


0.894 0.856 


. 0.996 


0.927 


0.968 


n(l) = 300 


0.899 


0.933 


0.936 


01797' 


0.915 0.885 


0.999 


0.987 


0-990 


randlx 




2rand!xll2 


p = 2, (7-f = 0.01 


n(l) = 100 


0.912 0.376 0.632 || 0.833 0.326 ; 0.545 || 0.947 


0.303; 0.663 


9rand!xlll2 


p == % <7? = 0.001 


n(l) = 150 


0.522 1 0.332 0.559 || 0.490 


0.329 0.528 || 0.732 0.418 | 0.664 



Esjfqlgen die Resultate mit drei Clustern: 



randx 


Clusteranzahi 




durchschnittlich 


korrekt (3 bzw. 4) 


Verfahren 


FPGA MML 


FPML 


FPGA 


MML 


FPML 


lrandxll3 


p.— l r .of = 0.01 


n(l) = 20 


8.80 


3.15 


2.54 


0.061 


0.402 


0.567 


n(l) = 50 


7.33 


3.31 


2;59 


0.108 


0.463 


0.605 


n(l) = 100 


6.50 


3.44 


2.61 


0.119 


0.494 


0.623 


n(l) = 300 


5.52 


3.65 


2.64 


0.157 


0.467 


0.650 


2randxlll3 


p = 2, <r]f = 0.001 


n(l) = 20 


14.90 


3.56 


2;93 


0.008 


0.388 


0.862 


n(l) = 50 


12.23 


3.37 


3.01 


0.017 


0.598 


0.876 


n(l) = 100 


10.40 


3.32 


3.01 


0.034 


0.691 


0.907 


n(l) = 300 


8.17 


3.26 


3.02 


0.070 


0.760 


0.952 
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randx 


Cluster korrekt gefunden 


Kriterium 


/? ff—.o 2 Zuordnung 


Verfahren 


FPGA 


MML FPML 


FPCA MML 


FPML 


FPCA 


MML FPML 


lrandxll3 


p = 1, oi - 0.01 


n(l) = 20 


0.629 


0.607 


0.654 


0,496 


0.503 


0.587 


0.508 


0.404 


0.629 


n(l) = 50 


0.544 


0.662 


0.662 


0.409 


0.569 


0.601 


0.469 


0.475 


0.668 


n(l) = 100 


0.493 


0.683 


0.666 


0,355 


0.585 


0,600 


0,476 


0.522 


0.701 


n(l) = 300 


0.423 


0.655 


0.675 


0.278 


0.546 


0.585 


0.463 


0.526 


0.733 . 


2randxlll3 


p = 2, a'( = 0.001 


n(l) = 20 


0.541 


0.591 


0.804 


0.457 


0.586 


0.752 


0.706; 


0.572 


0.872 


n(l) = 50 


0-657 


0.776 


0.872 


0,570 


0,766 


0.816 


0.788 


0J7O 


0.927 


n(l) = 100 


0.693 


0.823. 


0.888 


0.576 


0.811 


0.834 


0.834 


0.840 


0.952 


n(l) = 300 


0.717 


0.862 


0.920 


0.544 


0.841 


0,860 


0.857 


0.888 


0.982 



Nun noch die Ergebnisse mit vier Clustern: 



randx 


Clusteranzahl 




durchschnittlich 


korrekt (4 bzw. 5) 


Verfahren 


FPCA MML | FPML 


FPCA 


MML. FPML 


4randxlll4 


p = 4, q'i = 0.001 


n(l) = 20 


12.61 


3.91 


.2.01 


0.029 


0.182 


0.090 


n(l) = 50 


7.27 


3.99 


2,71 


0110, 


0.303 


0.274 


n(l) = 150 


5.81 


4.35 


3.74 


0.124 


0.555 


0.647 



randx 


Cluster korrekt gefunden 


Kriterium 






Zuordnung 


Verfahren 


FPCA MML | FPML 


FPCA MML I FPML | 


FPCA | MML FPML 


4randxlll4 


p = 1,^=0.001 


n(l) = 20 


0.026 


0.036 


0.082 


0.019 


0,035 0.074 


0.104 


0.070 


0.126 


n(l) = 50 


0.053 


0.350 


0.303 


0.044 


0.346 0.284 


0.169 


0.430 


0.375 


n(l) = 150 


0.117 


0.711 


0.715 


0.092 


0.700 j 0.667 


0,254 


0.819 


0.806 



Die Ergebnisse unterscheideii sicli deutlich voa den Resultaten mit gleichen Regresspren- 
verteilungen; Insbesondere bei kleinem n findet MML wenige korrekte Cluster. Bei change 
und lrandxll3 wird aber anscheinend auch asymptotisch die Clusterzahl iiberschatzt. In 
den ra nd !x-Koristellationeii wird ebenfalls deutlich, dafi das Verfahren bei Verletzung der 
Zuordriungsunabliangigkeit ernsthafte Probleme bekoihmt, wenn es auch in deri reajisti- 
scheren Konstellationen nicht vollig versagt. Die schlechten Ergebnisse bei change sind 
etwas iiberraschend, weil die Regressoren fiir die einzelnen Cluster dabei im Mittel nicht 
weiter auseinanderliegen als bei randx. Die Wechselpunkt-Konstellation scheint auch fur 
die anderen Verfahren eihen besondereii Schwierigkeitsgrad zu haben, aber MML hat die 
groBten Probleme. 

Die FPCA schrieidet dagegeh deutlich besser ab als im Fall gleicher Regressorenvertei- 
lungen. Das Verfahren kann fast durchweg mit den parametrischen Methoden mithalten. 
Insbesondere die guten Ergebnisse bei randlx waren nicht unbedingt zu erwarten, be- 
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denkt man die Voraussetzung an die Regressorenverteilimgen in Satz 13.11. Einzig bei 
p = 4,s = 4 hinterlafit das Verfahren einen sehr scliwachen Eihdruck. In Bemerkung 
15.1 wird damit iibereinstimraend eine geringe Wahrscheiniichkeit berechnet, vorhande- 
ne - besonders kleine- Fixpunktciuster bei hohein p schnell zu finden. Das scheint rair 
die Achillesferse des Verfahrens zu sein. so wie es bisher implementiert ist. Andererseits 
schrieidet die FPCA in den andferen Konstellationen bei kleinem n mehrfach am besten 
ab. Das Verfahren scheint gilt zur intensiven Analyse kleiner Datensiitze geeignet zu sein. 
Neben den modellseitigeh Glusterh beicommt man im Sclinitt viele weitere. Das kann je 
nach Ziel der Analyse ein Vor- oder Nachteil sein; Die Clusterzuordnung ist durchweg 
besser als die Parameterschatzung. 

FPML bringt auch in den Konstellationen mit unterschiedlicher Regressorenvertei^ 
lung gute Ergebnisse. Das Verfahren ist nicht immer das beste, iSilt a>ber gegenuber dem 
besteri nie deutlich ab. Die Clusterzahlschatzung ist fast immer besser als die von MML. 
und be wegt sich mit steigendem n immer in die richtige Richtung. Im Gegensatz zu MML 
neigt FPML eher zur Unterschatzung der ClusterzaiiL 

16*4 Verschiedeiiartige Cluster 

In den Kop^tellationen mit yerschiedenartigen Clustern werden die Finchmgshaufigkei- 
ten nicht uber die Cluster gemittelt, sondern die Ergebnisse sihd hier nach den eirizelrien 
Clustern aufgeschlusselt. Die Clusternummer ist der Index aus Abxhnitt 15.2- d.h. der 
grofite Cluster hat immer Index 1. 



4halblll2 


Clusteranzahl 




durdischnit 


tlieh 


korrekt (2 bzw. 3) 


Verfahren 


FPCA 


MML 


FPML 


FPCA 


MML 


FPML 


n(l) = 50 


12.84 


2.01 


2 


0.001 


0.990 


1 


n(l) = 100 


10.60 


2 


2 


0.020 


1 


1 


n(l) = 300 


8.96 


2 


2 


0.095 


1 


1 



4halblll2 


Cluster korrekt gefunden 


Kriterium 


4 




Zuordnung 


Verfahren 


FPCA 


MML 


FPML 


FPCA 


MML 


FPML 


FPCA 


MML 


FPML 


Cluster 1 


n(l) = 50 


0.942 


0.961 


0,940 


0.873 


0.953 


0.879 


0.990 


0.953 


0.996 


n(l) = 100 


0.926 


0.948 


0.955 


0.855 


0.939 


0.894 


0.998 


0.991 


1 


n(l) = 300 


0.939 


0.949 


0.940 


0.836 


0.936 


0.888; 


1 


0.997 


1 


Cluster 2, halbe Grofle 


h{l) = 50 


0.311 


0.942 


0,945 


0.220 


0.940 


0.896 


0.289 


0.949 


0.996 


n(l) = 100 


0.547 


0.948 


0.929 


0.405 


0.941 


0.876 


0.592 


0.991 


1 


n(l) = 300 


0.788 


0.940 


0.942 


0.495 


0.919 


0.892 


0.859 


0.997 


1 
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2scl2 


Glusteranzahl 




durchschnittlich 


korrekt (2 bzw. 3) 


Verfahren 


FPCA 


MML 


FPML 


FPCA 


MML 


FPML 


n(l) = 20 


9.80. 


2.95 


2 


0.016 


0.549 


0.994 


n(l) = 50 


7.Q2 


2,07 


2 


0.105 


0.943 


1 


n(l) = 100 


5.33 


2.02 


2 


0.183 


0.982 


1 


n(l) = 300 


3.81 


2.02 


2 


0.275 


0.983 


1 



2scl2 


Cluster korrekt gefunden 


Kriterium 


0 


0-a* 


Zuordnung 


Verfahren 


FPCA MML FPML 


FPCA 


MML 


FPML 


FPCA 


MML 


FPML 


Cluster 1, cr 


f = 0.1 


n(l) = 20 


0;479 


0.770 


0.926 


0.345 


0.508 


0:876 


0.137 


0.491 


0.929 


n(l) = 50 


0.219 


0.925 


0.943 


0.124 


0.854 


0.890 


0.062 


0.839 


0.976 


n(l) = 100 


0.121 


0.941 


0.933 


0.052 


0,886 


0.880 


0,047 


0,846 


0.982 


n(l) = 300 


0.051 


0.946 


0.935 


0.026 


0.895 


0.878 


0.039 


0.816 


0.988 


Cluster 2, q-jf = 0-001 


h(l) = 20 


0.943 


0.901 


0.906^ 


0.863 


0.795 0.834 


0.934 


0.796 


0.933 


n(l) =50 


0.935 


0.932 


0.934 


0.819 


0.859 0.865 


0.937 


0.878 


0.976 


n(l) = 100 


0.931 


0.940 


0.936 


0.773 


0.876 i 0.869 


0.955 


0.853 


0.982 


n(l) = 300 


0.918 


0933 


0.936 


0.663 


0.863 0.867 


0.957 


0.816 


0.988 



9schalbxll2 


Glusteranzahl 




durchschnittlich 


korrekt (2 bzw. 3) 


Verfahren 


FPCA 


: MML 


FPML 


FPCA 


MML 


FPML 


n(l) = 50 


61.37 


3.30 


1.88 


o 


0.452 


0.836 


n(l) = 100 


45,39 


2.29 


1.98 


0 


0.857 


0.927 


n(l) = 300 


31.68 


2.03 


2 


0.055 


0.979 


0.993 



9schalbxll2 


Cluster korrekt gefunden 


Kriterium 


0 




Zuordnung 


Verfahren 


FPCA MML FPML 


FPCA 


MML 


FPML 


FPCA MML FPML 


Cluster 1, a'i = 0.01 


n(l) = 50 


0.968 


0.430 


0.654. 


0.931 


0.342 


0.602 


1 


0.380 


0.720 


n(.l) = 100 


0.952 


0.846 


0.838 


0.904 


0 734 


0.798 i 


0.999 


0.858 


0.900 


ri(l) = 300 


0.933 


0.948 


0.940 


0,846: 


0.890 


0.883 


1 


0.990 


0.992 


Cluster 2, 1 


ialbe Grofie, a\ = 0.001 


n(l) = 50 


O.002 


0.304 


0.592 


0.001 


0.304 


0.568 


0.006 


0.404 


0.728 


n(l) = 100 


0.025 


0.803 


0.826 


0.021 


0.800 


0.778 


0.036 


0.885 


0.913 


n(l) = 300 


0.232 


0.912 


0.900 


0.206- 


0.909 


0.858 


0.327 


0.989 


0.995 



16 SIMULATIONSERGBBNISSB 



161 



lscvxll3 


Clusteranzakl 




durchschnittlicli 


korrekt (3 bzw. 4) 


Verfahren 


FPCA 


MML 


FPML 


FPCA 


MML ! FPML 


n(l) = 20 


10.02 


3.31 


2.74 


0.035 


0.415 0.737 


n(l) =50 


8.56 


3.33 


2,80 


.0.076 


0.518 | 0.785 


h(l) = 100 


7.84 


3.39 


2.83 


0.081 


0.560 


0.805 


n(l) = 300 


6.43 


3.50 


2.83 


0.144 


0.573 


0.820 



lscvxll3 


Cluster korrekt gefunden 


Kriterium 


0 




Zuordnung 


Verfahren 


FPCA | MML FPML 


FPCA MML FPML 


FPCA MML FPML 


Cluster 1, of = 0.01 


n(l) = 20 


0.809 


0.671 


0.783 


0,683 


0.546 


0.726 


0.647 


0.379 


0701 


n(l) = 50 


0.703 


0.746 


0.804 


0.554 


0.641 


0.754 


0.625 


0.567 


0.785 


n(l) = 100 


0.661 


0.728 


0.787 


0.494. 


0.648 


0.731 


0,628 


0.592 


0,794 


n(l) = 300 


0.554 ; 


0.707 


0.8.11 


0,407 


0.631 


0.744 


0.605 


0.602 


0.839 


Cluster 2,<rjf = 0.001 


n(l) = 20 


0.730 


0.645 


0.784 


0.655 


0.626 


0.737 


0.699 


0.531 


0.802 


n(l) = 50 


0.750 


0.744 


0.799 


0,623 


0.728 


0,746 


0.783 


0.700 


0.855 


h(l) = 100 


0:754 


0.803 


0.831 


0.618 


0.773 


0.775 


0.793 


0.739 


0.887 


n(l) = 300 


0,734 


0.803 


0.832 


0,554 


0.776 


0.756 


0.823 


0.744 


0,894 


Cluster 3, o\ = 0.003 


n(l) = 20 


0.392 


0.604 


0.720 


0299 


0.590 


0.652 


0.309 


0.476 


0.730 


n(l) = 50 


0.389 


0.699 


0:783 


0.289 


0.619 


0.718 


0.374 


0.644 


0.822 


n(l) = 10.0 


0.357 


0.748 


0.767 


0.271 


0.670 


0.716 


0.392 


0.701 


0.827 


n(l) - 300 


0.377 


0.756 


0.794 


0.255 


0.666 


0.718 


0.426 


0.705 


0.850 



Bei MML und FPML unterscheiden sich die Ergebnisse fur die verschiedenen Cluster 
iiinerhalb einer Konstellatibn kaum. Zunrindest wenn die Clusterzahl richtig geschatzt 
wurde, isfces fast gleichbedeutehd, einen und alle Cluster korrekt zu finden. Im Gegen- 
satz dazu ist die Fahigkeit der FPCA, Cluster zu finden. stark von den Eigenschaften 
des Clusters im Verhaltnis zur Restkonstellation abhahgig. Cluster mit grofieixi n(i) und 
kleinem erf werden wesentlich haufiger gefunden. Insbesondere in den hohen Dimen- 
sionen brauchte die FPCA, wie bereits emabnt und in Bemerkung 15.1 eflautert, fiir 
kleine Cluster mehr Iterationen. Aber auch die Ergebnisse fur den dritten Cluster in 
lscvxll3 seheh nicht gut aus. In 2scl2 werden vermutlich meisteris Teile des Clusters 2 
mit kleinerer Storskala auch dem ersten Cluster zugereebnet, so dafi dieser fast immer 
verzefrt ist. Bei groCerem n werden sogar riianehmal har noch zwei Cluster gefunden, 
vermutlich der Gesamtdatensatz und der. zv/eite Modellcluster. Wenn die Information 
vorhanden ist, dafi der Datensatz mit einer Partition in mehrere Regressipnsverteilungen 
angemessen zu beschreiben ist, ist dieses Ergebnis aber ausreichend, urn die Gesamtkon- 
stellation zu finden: Dann kann der erste; Modellcluster einfach ermittelt werden, weil er 
aus den Punkten besteht, die im Gesamtdatensatz, aber nicht im kleineren Cluster sind. 
Inimerhin findet die FPCA meistens alle bis auf einen Cluster korrekt; manchmal bei 
kleinem n haufiger als die ML- Verfahren. Man hatte also in der Ausgabe des Verfahrens 
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alte notigen Infdrmatiorieh, um sich eirie gute Vorstellung von der Gesamtkonstellatibn 
zu macfcen, vorausgesetzt, man wurdejreleyante von irrelevanten Glustetn unterscheideii 
kSnnen, wenn zu viele gefunden werden. Bei 9schajbxll2 fallt auf; dafi bei kleinem n der- 
grofiere Cluster nach cem /3-Kriterium. besser geschatzt wird als beiih einfachen KQ- 
Sch&tzer thepretisch zu erwaxtefi ware (oM)- 0as ist filer auf die hqhe Zahl gefundlener 
Cluster zitruckziifuKren. Der grofe^ in mehreren n Versidneh" gefuhden 

und es ist nicht uberraschend, dafi fast immer wenigstens eine di^er Version^ eine gute 
^-Schatzung Jehthalt. 

Der Eindruck bei den Ml^Veifahren ahnelt dem aus anderen Konstellationen. MML 
zeigt deutlidie SclWluaieri biei kleinen Sticliproben. FPML ist beim Zuordnungskriterium 
durcliw^ in deri Situatiprien mit gleicEer Regf essorenvert^^ aller 

Cluster (Isclil und 4Halb(ll2) isVdie Parameter manchmal bei MML besser. 

DabeEist aJlerding^ der kuistlidie Vorteil von' MML bei 4halblH2 diirch die Storiska- 
lenuntergreoze. ,0.0dl ; 211 bei^^dchtipni Nur in der Kpnstellatipn: ; mit 4rei ;Clustern 
uhterschiiBdliclier; GroBe iind Storskala; lscvxll3 taueheh Probleme bei der Schatziing der 
Anzahl der Cluster auf. Insbespndere MML sebneidet dabei schlecht ab. 

16.5 Ausreifierkonstellationen 

Iii deh^Ansreifierkonstellation iiiterpretiere icfi die Puhkte aus dem jeweils kleinsten 
Cluster als irrelevante Ausreifier: Entscheidend ist also nur, ob die grpfien Cluster gut ge- 
mtfden werderi. Falls es mehrere sind , sind sie symmetrisch. In den. Tabellen fiir „Cluster 
korrekt gefunden" werden also die FindungshSufigkeiten iiber die NichtausreiBercluster 
gemiitteit. Bei den gescMtzten Clusterzahleu fiihre ich spwohl die ; Haufigkei ten fur die 
Zihi der Nichtau^m als &uch fiir die uni 1 hohere Mbdellclusterzaiil an. 



put! 


Clusteranzahl 




durchschnittlich 


ohue Ausreifier 

(Ibzwijj 


mit Ausreifiern 
(2 fczw.3) 


Verfahren 


FPCA MML FPML 


FPCA 


MML FPML 


FPCA | MML | FPML 


lout!H2 


p = 1, 4= 0.01 


ri(l) = 20 


6.13 


3.68, 


2.04 


0.013 


0 


0.054 


0.073 


0.021 


0868 


n(l) = 50 


4.60 


4.66 


2.08 


0.106 


0 


0.002 


0174 


01129' 


0.916 


1(1) = 100 


2.84 


2.37 


2.03 


0.263 


,0= 


0 


0.221 


0.799 


0.968 


n(l) - 300 


1,66 


2.04 


2 ' 


.0.237 


0 


0 


0.085 


0.971 


0.999 


4out!ll2 


p = 4, <rf = 0:01 ; 


n(l) = 20 


25.82 


2.96 


1.96 


.0 


0 


0119 


0 


0.318 


0.806 


n(l) = 50 


74146 


4.43 


2.05 


0 


0 


0.026 


0 


0.006 


0.896 


n(l) = 100 


66:58 


5.09. 


2.29 


0 


0 


0,021 


0 


0:060 


0.694 


n(l) = 300 


7.70 


2.24 


2 


0.089 


0 


0 


0.113 


0.824 


0.997 
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out! 


Cluster korrekt gefunden 


Kriterium 




0 - * 


Zuordnung 


Verfahren 


FPCA MML FPML 


FPGA | MML FPML 


FPGA 


MML FPML 


lout! 112 


p = 1, cf = 0.01 


n(l) = 20 


0.956 


0.812 


0.800 


0.910 


0.596 


0.716 


0.998 


0.337 


0.811 


n(l) = 50 


0.946 


0.832 


0.873 


0.893 


0 ,726 


0.815 


1 


0.528 


0.985 


n(l) = 100 


0:940 


.0.878 


0;885 


0.883 


0.820 


0.827 


1 


0.708 


0.997 


n(l) = 300 


0.930 


0872 


0.888 


0.874 


0.821 


0.830 


.1 


0.670 


1 


46ut!H2 


p = 4, c'( = 0.01 


n(l) = 20: 


0.969 


0.520: 


0.045 


0.931 


0.272 


0.011 


1 


0.186 


0 


h(l) = 50 


0.966 


0.704 


0.161 


0.923 


0.456 


0.146 


1 


0.197 


0.662 


n(l) = 100. 


0.955 


0.610 


0.517 


0.910 


0.505 


0.486 


1. 


0.562 


0.924 


n(l) = 300 


0.931 


0.815 


0.848 


0.883 


0.759 


0.785' 


1 


0.746 


1 



randout 


Clusteranzaltf 




durchschnittlich 


ohne AusreiSer 
(2 bzw. 3) 


mit Ausreifiern 
(3 bzw. 4) 


Verfahren 


FPCA 


MML FPML 


FPCA MML FPML | 


FPCA | MML | FPML 


lrandoutl!3 


p = 1, a'f = 0.01 


n(l) = 20 


8,77 


3.56 


2.12 


0.045 


0.030 


0.699 


0,059 


0.478' 


0.203 


n(l) = 50 


7.88 


4.66 


2.78 


0.062 


0.002 


0.235; 


0.092 


0.136 


0.703 


n(l) = 100 


681 


3.82 


2.95 


0.093 


0.009 


0.088 


0.098 


0.525 


0.873 


n(l) =300 


5.32 


3.21 


2.97 


0.120 


0.007 


0.039 


0.124 


0.819 


0.954 


4randoutlll3 


p = 4, cr'f = 0.0 


01 


n(l) = 20 


29.63 


3.77 


2.14 


0 


0.002 


0.851 


0 


0.410 


0.143 


n(l) = 50 


29.50 


4.70 


2.66 


0 


0 


0.377 


0 


0.036 


0.588 


n(l) = 100 


25.93 


5.36 


2.88 


0 


0 


0.250 


0.002 


0.033 


0.626 


n(l) = 300 


16.86 


3.63 


3.03 


0.007 


0 


0.001 


0.020 


0:608 


0.975 



randout 


Cluster korrekt gefunden 


Kritexiuin 




(3- a 2 


Zuordnung 


Verfahren 


FPCA MML FPML 


FPCA MML FPML 


FPCA MML FPML 


lrandoutll3 


p,= l, ,oj = QM 


n(l) = 20 


0,805 


0.834 


0.282 


0,660 


0.705 


0.229 


0.565 


0.459 


0.334 


n(l) = 50 


0.719 


0.804 


0.626 


0.522 


0.696 


0.555 


0.477 


0.435 


0.681 


n{l) = 100 


0.671 


0.840 


0.796 


Q ; 418; 


0.767 


0.701 


0.452 


0.428 


0.852 


n(l) = 300 


0.574 


0.866 


0.858 


0.269 


0.801 


0.694 


0.419 


0.424 


0.907 


4randoutlll3 


p = 4, a\ = 0.001 


n(l) = 20 


0.868 


0.830 


0.230 


0.765 


0.828 


0:200 


0.935 


01485 


0.504 


n(l) = 50. 


0.928 


0.860 


0.359 


0.834 


0.858 


0.317 


0.986 


0.641 


0.602 


n(l) = 100 


0931 


0.728 


0.453 


0.809 


0.720 


0.411 


0.991 


0.816 


0.754 


n(l) = 300 


0.923 


0.879. 


0.911 


0.738 


0.867 . 


0.848 


0.997 


0.730: 


0.999 
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randoutx 


Clusteranzahl 




durchschnittlkh 


ohne Ausreifier 


mit Ausreifiern 










(2 bzw. 3) 


(3 bzw. 4) 


Verfahren 


FPCA 


MML 


FPML 


FPCA 


MML 


FPML 


FPCA 


MML 


FPML 


2randoutxl!3 


p = 2, a\ = 0.01 


n(l) = 20 


14.52 


3.63 


2.07 


0.004 


0,133 


0.780 


0.003 


0.389 


0.140 


n(l), = 50 


11.70 


3.85 


2.55 


0.009 


0.044 


0.383 


0.026 


0.394 


0,560 


n{i).= 100 


9.04 


3.56 


2.86 


0.024 


0.024 


0.121 


0.065 


0.616 


0.836 


n(l) = 300 


7.19 


3,26 


2.95 


0.032 


0.012 


0.056 


0111 


0.789 


0.923 



randoutx 


Cluster korrekt gefunden 


Kriterium 


0 




Zuoidnung 


Verfahren 


FPCA MML FPML 


FPCA MML | FPML 


FPCA MML FPML 


2randoutxll3 


p = 2, of = 0.01 


n(l) = 20 


0.925 


0.581 


0.294 


0.832 


0.441 


0.244 


0.850 


0.286 


0.437 


n(l) = 50 


0.854 


0.686 


0.547 


0J50 


0.573 


0.468 


0.814 


0.460 


0.667 


n(l) = 100 


0.804 


0.777 


0.768 


0.671 


0.692 


0.667 


0.779 


0.520 


0.874 


n(l) = 300 


0,721 


0.806 


0.830 


0.541 


0.725 


0.635 


0,754 


0,510 


0.942; 



Die AusreiBer machen der FPCA am wenigsfceri zu schaffen. Man vergleicbe dazu zurii 
Beispiel die Ergebnisse yon 4randput 1 1 13 mit denen von 4randlll2. Die Findungshaufigkei- 
ten unterscheiden sich kaum. Allerdings wird die Zahl der gefundenen Cluster zumindest 
bei p = 4 sehr grofi. Das Verfahren gibt offenbar diverse Punktmengen als Fixpunkt- 
cluster aus, in denen eih Teil der Ausreifier mit deri Dateh aus den grofien Clustern 
zusammenfafit wird. Besonders bei grofiem n wird in der Konstellation lout!H2 anderer- 
seits haufig nur noch ein Cluster gefunden. Die FindungshSufigkeiten deuteri darauf hin, 
dafi das der korrekte grofie Cluster ist. Es gibt hier also keinen Cluster mehr. der den 
ganzen Datensatz- inklusive Ausreifiern enthalt. 

Die Ergebnisse der ML- Verfahren sind fur grofie ri gut. Der Cluster mit den Aus- 
reifiern ist dann grofi genug, dafi die Verfahren seine eigenc Struktur erkennen; die hier 
simulierten Ausreifier sind ja nicht n modellfremd". Bei nur wenigen Ausreifiern bekom- 
men MML und FPML aber Probleme, FPML sehatzt dabei haufig die Clusterzahl als die 
Zahl der Mbdellcluster ohne Ausreifier. Die Ausreifier werden also in die anderea Cluster 
„integriert". Das lafit deren Parameterschatzer zusammenbrechen. Die Ergebnisse nach 
dern Zuordnungskriterium sind nicht gahz so schlecht. 

MML hat dagegen die Tendenz, die Clusterzahl zu iiberschatzen. Offenbar gibt es 
dann Cluster,, die den grofien Modeliclustern abziiglich einiger Punkte entsprechen. und 
mehrere kleine Cluster mit Teilen der Ausreifier. Das hat gegenuber FPML den Vorteil. 
dafi in den grofien Clustern zumindest die Parameter besser geschatzt werden. Dieses 
Verhalten ist audi bei den Datensatzen in Abschnitt 10 zu beobachten. 

Allgemein unterstiitzen die Ergebnisse den Verdacht , dafi die ML- Verfahren mit Aus- 
reifiern Probleme bekommen, die keine sichtbare lineare Struktur haben. Die FPCA 
macht hier einen deutlich besseren Eindruck, sofern man nicht die grofie Zahl der gefun- 
denen Cluster als entscheidenden Nachteil wertet. 
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17 Pazit: Simulationen 

Die drei Verfahren, die in den Simulkiorien verglichen warden, sind eigeritlich fur unter- 
schiedliche Situationen gedacht; Der prinzipielie Unterschied zwischen dein Mischmodell 
1 und dem Mbdell 2 rait fester Zuordnung besteht 'darter, da£S ersteres, und damit das 
MML- Verfahren, die Zuordnungsuhabhangigkeit yoraussetzt. Der Ziyeck der FPCA ist 
eher die, Verwendung zur explorativen Datenanalyse, falls man weniger Infprmationen 
hat als die anderen Verfahren voraussetzen. Weiterbin unterscheidet sich die Ausgabe 
der FPCA wesentlich yon der der ML-Verfahren, 

In deri Simulatiorien wurde kiihstlich Vergleichbarkeit hergestellt. Trotzdem sind die 
Ergebnisse relevant, denn die Datenkonstellationen sind so gewahlt, daB sich prinzipiell 
die Verwendung aller Verfahren anbietet. Es; ist zum Beispiel nicht damit zu fechnen, 
dafi immer die Zuordnungsunabhangigkeit nachgepruft werden kanri, wenn MML einge- 
setzt wird. Beim Abschneiden der FPGA ist zu beriicksichtigen, daBich auf Simulationen 
verzichtet habe, in derien Ausreifier vorkqminerij die nicht von einem lineareri Regressi- 
onsmodell generiert wurden. So bleibit die Vermutung ungepriift, dafi das Verfahren hier 
besondere Starken hat. 

Die drei Verfahren zeigen erwartungsgemafi eih sehr unterschiedliches Profil. Daher 
ist die Zusamraenfassung der Simulationen hach den Verfahren geordnet. 

17.1 Fixpuhktclusteranalyse 

Vprteile: 

• Die FPCA lafit sich am wenigsten von Ausreifiern beeinflussed. 

• Bei kleineni ri,p und $ findet die FPCA haufig besser die Cluster als die ML- 
Verfahren. 

• Die FPCA arbeitet gut. wenn die MbdeUcluster sehr gut.voneiaander getrenrit sind; 

• Die FPCA ist iirder Lage, unterschiedliche Parameterkonstellatiorieh zu finderi* die 
denselben Datensatz anpassen konnen, Dadurch kQnnenbei Nicht-IdenUfizierba-rkeit 
der Parameter rnehrere Alternativen gefunderi werden. 

Nachteile: 

• Die Arizahl der gefundenen FPC 1st zur SchStzung der Zahl der ModeUcluster 
nicht brauchbar. Manchmai werden extreni viele PPC gefuhden. Die Ausgabe des 
Verfahrens wird dadurch sehr unubersichtlich. 

• In Situationen mit Clustern, die sich uberschneiden (zum Beispiel cross oder mit 
grdfier Wahrscheinliehkeit rand) ist die FPCA viel schlechter als die ML- Verfahren. 
Insbesondere wird das Verfahren dadurch oft bei grofiem h schlechter. 

• Die Schatziing vori a 2 ist allgemein schlecht. 

• Das Verfahren hat grbfie Schwierigkeiten mit kleinen Clustern. 
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• JJm bei hoher Dimension zu guten Ergebnissen zu kommen. brauctite man einen 
nicht vertretbaren Rechenaufwand (siehe Bernerkung 15.1). In der vorliegenden 
Version sind die Ergebnisse, daher bei p == 9 und p = 4 bei kleinem n meistens 
schlecht. 

Die hohe Zahl irrelevanter FPC in den Konstellationen mit p = 4 pder 9 kpnnte mogli- 
cherweise gesenkt werden, wenn die Mindestgrofie fur einen Cluster im Verfahren erhoht 
wird. Es 1st nicht auszuschlieBen, dafi in einer typischen Patenkonstellatipn im fiinf-pder 
zehndiniensionalen Raum tatsachlich 20 Oder mehr Punktmengeri kleiner GroBe (zum 
Beispiel< 3p) so gut vom Rest der Daten getrennt sind. dafi sie die Bezeichnung „ Clu- 
ster" verdierien. Vergleichbare Effekte diskutiert Rousseeuw (1994) in einem Abschnitt 
iiber den „Fluch der Dimensionalitat" („The curse of dimensionality"). Er schreibt dort 
iiber hoherdimensionale Datehsatze:: 

My interpretation of the „curse of dimensionality* is that several structures can exist 
simultaneously in the same dataset. 

Die entsprechenden Ergebnisse der FPCA waren dann nicht unsinnig, da die FPCA 
anschaulich bedeutsame und nicht nut unbedingt modellseitig yorhandene Cluster finden 
soli. 

Wenn eine der Mpdellvoraussetzungen aus Abschnitt 2 einigermafien gesichert ist und 
irian ah einer guten Parameterschatzuhg interessiert ist, kann die FPCA mit den anderen 
Verfahren nicht konkurrieren. Wean unsystematische AusreiBer auftreten, die Erfullung 
der Modell voraussetzungen sehr unklar ist oder man an einer genaueren Analyse ties 
Datensatzes bei moglichsit kleinem p interessiert ist, kanri die FPCA wertyolle Infor- 
mational bringen. Moglicherweise ist es auch sinnvoll, die FPCA zur Ausreifieranalyse 
einzusetzen. wenn danach eines der anderen Verfahren angewendet werden soil. 

17.2 Mischmodell-Maximum Likelihood 

Vorteile: 

• Das Verfahren liefert als einziges brauchbare Ergebnisse in der Kpnstellation Iran- 
dl3. Es ist zu vermuten, dafi es bei Erfulltheit der Zuordnungsunabhangigkeit und 
Clustery die sich stark uberlappen. hnmer die besten Ergebnisse bringen wird. 

• Von DeSarbo und Cron (1988) und Kiefer (1978) wird Konsistenz des Verfah- 
rens im Falle bekannter Clusterzahl behauptet Dieser Verdacht wird durch das 
Verhalten bei grofiem n in den Simulationen bestatigt; in den Fallen, wb die Para- 
meterschatzung mit groBem n schlechter wird (zum Beispiel lok), scheint es an der 
Schatzung der Clusterzahl zu liegen. Auch die Schatzung der Clusterzahl scheint 
aber meistens gegen den wahren Wert zu konvergieren. 

• Der Effizienzverlust gegentiber dem KQ-Schatzer fiir die einzelnen Cluster ist in 
vielen Situationen sehr klein. Allerdings entsteht durch die Storskalenuntergrenze 
0.001 bei den Clustern mit Storvarianz 0.001 ein beschonigtes Bild. 

Nachteile: 

• Das Verfahren ist haufig bei kleinem n schlecht. 
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• Das BIC tiberschatzt die Qlusterzahi hiufig. 

• Die Schatzung der Zuordnungen der Punk te zu den Ciustern ist den anderen Ver- 
fahren - insbesbndere PPML - haufig linterlegeri. 

• Bei Verletzung der Zuordnungsunabhangigkeit yerliert das Verfahren an Qualitat. 

Weiterhm ist MML bei grofiem n extrem langsam. Umgekehrt ist bei kleinem n eine 
mehrfache Wiederholung der Iteration zeitlicti nicht problematisch urid konnte zu Ver- 
besserungen fiihren. 

Als Fazit ist MML zuempfehlen, wenn die Modellvoraussetzungen stimmen, was man 
naturlich nie genau weifi. Welter sollte der Datensatz niclit zu klein sein. Insbesondere ist 
das Verfahren anscheinend das einzige, das die Regressionsparameter verniinftig schatzt, 
wenn kein deutliches Muster vorhandeii ist; Die Information, dafi eine lineare Regression" 
in Ciustern sinnvoll ist, mufi dann allerdings aus anderen Quellen kommen als aus der 
Analyse des Datensatzes allein. 

In den anderen Situationen ist MML immer mindestens einem der anderen Verfahren 
deutlieh unierlegen. 

17.3 Fixed Partition Maximum Likelihood 

Vorteile: 

• Die Schatzung d?r Clusterzahl ist meisteris hervorragend, neigt bei kleinem ri eher 
zur Unterschatzung. 

• Das Verfahren ist in den raeisten der simulierten Konstellationen das beste, bei 
Verletzung der Zubrdnungsunabhahgigkeit und Abwesenheit von Ausreifiern sogar 
praktisch immer, 

• Auch bei ZuoMriungsunabhangigkeit ist die Zuordniingsschatzuhg fast iihmer die 
beste., 

• Die, theoretische [nkonsistenz des;yerfahrens (siehe Bemerkung 3.4) ist bei den.hier 
verwendeten Stichprobenumfangen ofienbar fast immer irrelevant. 

Nachteile: 

• In der Situation lrandI3 yersagt FPML YOllig. Vermutlich ist das Verfahren unge- 
eignet. wenn die Uberschneidungen -der Cluster zu grofi sind. 

• Das Verfahren hat die grdflteii Probleme mit einer kleinen Zahl von Ausreifiern. 

Insgesamt macht FPML in den Simulationen also' den besten Eindruck. Das liegt un- 
ter anderem an der Schwerpunktsetzung auf gut getrennte Cluster. Aufierdem ist das 
Verfahren am schnellsten. Problematisch ware es allerdings, wenn das Verfahren auf die 
meisten Arten von Verletzungen der Modellvoraussetzungen (zum Beispiel Ausreifier) 
empfindlich reagieren wiirde. Es ware interessant, ob FPML eine groBere Zahl von „mo 
dellfremdeh". d.h. nichtlinearen Ausreifiern zu einem eigenen Cluster zusammenfasseri 
wurde und damit den Rest der Daten verniinftig behandeln konnte. 
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18 Schluftbetrachtung 

18.1 Konsequenzen far die Anwendung 

Angenommen, man steht yor einem Datenanalyse-Problem, in dem es darum geht. Clu- 
ster Hnearer Regression zu finden. Was soil man tun? Meine Arbeit tragt fplgendes zur 
Beantwortung dieser Frage bei: 

• Die Fixpunktclnsterahalyse wurde eingefuKrt und theoretisch untersucht. 

• Die ML-Schatzuiig fiir Modelle mil fester Zuordnung wurde auf den Regressionsfall 
ubertragen; Ein Verfahren zur Schatzurig, der Clusterzahl wurde vorgeschlageii. 

• Fur die ML~Schatzung; im Mischmodell wurde die Verwehdung des Schwarz'schen 
Kriteriums zur Schatzung der Clusterzahl vorgeschlagen. 

• Die Berechnung aller drei Verfahren wurde beschrieben und ausfuhrlich diskutiert. 
In einer groBen Simulation wurde ihr Verhalten in unterschiedlichen Datenkonstel- 
lationen untersucht 

• Unterschiedliclie Mdglichkeiten zur Mbdellierung wurden ausgefiihrt. Fiir alle Mo- 
delle wurden Bedingungen fiir die Identifizierbarkeit der Parameter hergeleitet. 

Bevor man eines der hier untersuchten Verfahren ariwendet, sollte iiberpriift werden, ob 
die Clusterbildung eventueil in eiqfacher Weise von der Zeit oder einem anderen eindi- 
mensibrialen Regressor abharigt\ ; In diesem Fall kann man haufig mit einem Verfahren 
fiir Wechselpunktprpbleme bessere Resultate erreichen. 

Die FPML-Schatzung taucht in der Literatur bisher im Lokationsfall nur selten, im 
Regressionsfall nie auf. Die theoretisclie Inkonsistenz wirkt offenbar abschreckend. Im 
Regressionsfall hat das Verfahren aber grofie Vorteile: Es ist deutlich schneller als die 
Konkurrenten, benotigt weniger restriktive Voraussetzuiigen als MML und schneidet in 
den Simulationen ausgezeichnet ab. Problematisch scheint jedoch die Anfalligkeit gegen 
Ausreifier zu sein. 

Die Anwendung des MML-Verfahrens kann ich hochstens empfehlen, wenn es gute 
Griinde gibt, die ZuordnungsunabhMgigkeit fiir erfuilt zu halten: Anderenfalls versagt 
es zwar .nicht vollig, kann aber nicht mit FPML mithalten. Das gilt auch, wenh der 
Schwerpunkt auf der Zuofdnungs- und nicht auf der Parameterschatzung fur Regression 
und Storvarianz liegt. 

Die FPCA halte ich fiir npch nicht ausgereift genug, um mit ihr aljeine ein solches 
Datenanalyseproblem losen zu wollen: 27 Das entscheidende Problem sind die Sdhwierig- 
keiten, Cluster zu finden. die deutlich weniger als die Halfte der Daten enthalten. Auch 
der hbrrende Rechenaufwand bei hohen Dimensioned ist ein grofler Nachteil. Die FPCA 
kann aber im Zusammenspiel mit anderen Verfahren gute Dienste leisten: Vor einer 
Analyse mit MML, FPML oder einem Wechselpuriktverfahren kann die FPCA einzelhe 
Ausreifier finden. Nachher kann sie auf einzelne Cluster separat angewendet werden, um 

i7 ln koniplexen Datenanalysesituationen, zu denen die hier behandelten z&hien, sollte man ohnehin 
mehrere Verfahren verwenden. Es gibt auch gute Griinde (Unrobustheit), den Ergebnissen isoliert ange- 
wendeter ML- Verfahren nicht zu trauen. Die. SchwSchen der FPCA in den simulierten Situationen mit 
$ > 2 bzw. p = 9 sind aber von anderer Qualit&t; 
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zu testen, ob diese wirklich hdmcgen sind. Ira Zusammenhang mit eitief robusten Re- 
gressionssckatzung teinn getestet werden, ob Ausreifier vorhandea sind r die sich zu einem 
eigerien Cluster zusammenfiigen lassen. Es kann uberpriift werden, ob die „guten Da- 
tea" der rdbusten Regression hbmogen sind. Ia alien diesen Fallen konnen Teildatensatze 
ausgewahlt werden, fur die die Fixpunktclustereigenschaft gezielt uberpruft werden kann 
oder die als Startpunkt des Algorithmus verwendet werden korineri. Zumindest kann die 
Anzahl der sinnyollen Startpunkte fur deri Algorithmus eingeschrankt werden. Es entfallt 
darait die Schwierigkeit, zufallig in den Teilrhengen des gesamten Datens^tzes heriimsu- 
chen zu mussen. 

18.2 Ausblick 

Die Idee der FPGA ist ausbaufShig. Im Regressionsfall ware; zu uberprufeii, ob die Er- 
setzung des KQ-Schatzers durch robustere Schatzungen Verbesserungen bringt. Ange- 
nommen, ein Algorithmus analog zu dem aus Abschnitt 9 ware audi mit einem robu- 
sten Schatzer konvergent. Fur eine einzelne Iteration dieses Algorithmus ist darin eine 
Verlangerung der Rechenzeit zu befurchten, weil die Berechnung robuster Schatzer haufig 
aufweridig ist. Andererseits habe ich die Hoffnung, dafi weniger Iterationen benotigt wer- 
den, urn kleinere Cluster zu finden: Eventuell mussen nur noch knapp mehr als die 
Halfte der Punkte des Iteratiorisstartes aus demselben Cluster sein, urn den eritsprecheri- 
den FPC zu iterieren. Gerade bei hoher Dimension konnte das viele IterationsdurchlKufe 
sparen (siehe die Diskussion in Bemerkung 15.1). AuBerdem konnte; sich die Anzahl der 
irrelevanten FPC verringern. Die Unrobustheit der KQ-Schatzung bewirkt zum Beispiel, 
daB fast immer der komplette Datensatz einen FPC bildet. Ich habe die KQ-Schatzung 
vor allem verwendet, weil sie theoretisch und numerisch am einfachsteri handhabbar ist. 
Die Ubertragung der Ergebnisse aus Abschnitt 9 und Teil III von KQ-FPC auf Fixpunkt- 
cluster, diezuih Beispiel auf MM-Schatzern basieren, dtirfte scliwierig seih; 

Weiterhtn lafit sich die FPGA auf andere Problemstellungen ubertragen. Abschnitt 
7.2 steht steUvertreterid fur viele weitere Moglichkeiten. 

Fur KQ-FPC kqnnte nach Verfahren gesucht werden, releyante yon irrelevanten Clu- 
stern zn unterscheiden. Man kShnte nach Releyanzkriterien suchen. die zum Beispiel 
vom VerMltnis Varianz zu Clustergrofie abhangen. Die Resultate aus Teil III konhten 
auf teste „ Regressoren (Fixed Partition Model) ubertragen werden. Leider iafit meine Ar- 
beit die Frage der Kohsistenz der FPCV fur die FPCI offen. Das grofite Problem scheint 
mir hierbei zu sein. daB alle Existenzresultate fiir FPCI die Stetigkeit; der Verteilungen 
voraussetzen. In alle Beweise geiit entscheidend der Zwischenwert- bzw. Brouwersclie 
Fixpunktsatz ein. Beide beruhen auf Stetigkeitseigenschaften. Urn Aussagen iiber „be- 
tiachbarte" empirische Verteilungen zu machen, brauchte man vergleichbare Aussagen 
iiber Fixpunkte spezieller unstetiger Funktionen. 

Weitere ttiebretische Anknupfungspunkte ergeben sich in Bezug auf die MML- bzw. 
FPML-Schatzung. Fur die MML-Schatzung ist das a3ymptotische Verhalten nicht aus- 
reichend untersucht. FPML schatzt zwar inkonsisient; es ware aber interessant, ob sich 
mit Hilfe emer Funktionalformulierung Schranken fur die theoretische Verzerrung herlei- 
ten liefien. Es miifite also das FPML-Analogon zu den FPCI definiert und eine Theorie 
entsprechend Teil III dieser Arbeit ehtwickelt werden. Die theoretisclie Untermauerung 
der Clusterzahl-Schatzungen beider ML- Verfahren steht weiterhin aus. 
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Zusammenfassung 

Eine lineare Regression kann durch eine Farailie von Verteilungen (Pfo* • $. £ ffl+ l y cr? € 
ZR + ) fur (r,_y) 6 2R p+l x JR aiodelliert werdea, wobei y = x'@ + u\ u sei unabhangig von 
z und normal- oder zumindest symmetrisch um 0 verteilt mit Varianz a 2 . 

In dieser Arbeit geht es um die Analyse vori Datensatzeh (x iy E IB?* 1 x JR.i == 
1, . . . , n. Eine lineare Regressions- Verteilung P^a wird als Verteilung eines Clusters be- 
handelt, d.h; lineare Regressionen mit untersdiiedlichen Parametern i " 

sollen zur Modellierung unterschiedlicher Teile des Datehsatzes adaquat sein. Es konnen 
auch Ausreifier unter den Daten sein. fiir die keine solche Verteilung angemessen ist. 

Verschiedene Modelle fiir derartige Daten werden vorgcstellt, insbesond^re Misch- 
modelle der Form tXi 3^W*- Die Schatzung der Parameter (A, <^) mit Maximum 
Likelihood- Verfahren wird diskutiert. Fur die Schatzung der Clusterzahl $ werden neue 
Vorschlage gemacht. 

Hihreicheride Bedingurigen fiir die Identifizierbarkeit der Parameter werdeii herge- 
leitet. In Situationen, in denen diese nicht erfiillt sind, werden einige Gegenbeispiele 
angegeben. 

Em neues Verfahren, die Fixpunktclusteranalyse (FPCA), wird eingefiihrt. Sife ermog- 
licht die Analyse von Datensatzen, die AusreiBer enthalten und bei denen die. Anzahj der 
Cluster 5 uhbekannt ist; Die FPCA basiert auf der Identifikation von Ausreifiern und kariri 
auch auf andere Clusterprobleme verallgemeinert werden. Ein Fixpunktcluster (FPG) ist; 
eine Teilmenge des jR^ 1 x JR und soil Piinkte (£. y) limfassen. die zusammengehorig siridv 
Jeder FPC korrespondiert zu Parametern (&, s 2 ) € IB?* 1 x jR + ,. .die als Sdiatzung der 
Regressionsparameter {0u <x}) interpretiert werden konnen. FPC werden Fur Datensatze 
und Verteilungen definiert. 

Ein konvergenter Algorithmus zur Bereciinung yon FPC in Datensatzen wird herge- 
leitet. 

Verteilungen der Form {1 - e)F^ 0i<T g + eH* werden betrachtet. DabeLwird P^ j als 
Verteilung eines Regressionsclusters interpretiert. Jf/* ist eine Verteilung auf M p + l x JR r 
ziim Beispiel eine. Mischung weiterer Pp^* Unter verschiedenen Voraussetzurigen an H* 
und e wird die Existenz von FPC gezeigt, deren Parameter in einer beschrankten Um- 
gebung voii (Po^q) liegeri. Insbesondere existiert fiir homogene Regressiohsverteilungen 
(e = 0} genau ein #PC. Jdieser hat die Parameter ($>. ajj). 

In einer Siinulationsstudie werden die FPCA und zwei Maximum Likelihood-Verfahren: 
miteinander yerglichen. 
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